전처리
-
[자연어 전처리] TF, DF, IDF 구현 실습🍓𝗪𝗲𝗯 2020. 8. 2. 21:03
TF : 특정 문서에서 특정 단어가 등장한 횟수 DF : 특정 단어가 등장한 문서의 수 IDF : DF의 역수 -> 로그를 취해서, 수가 너무 커지는 것을 방지한다. 분모에는 1을 더해서 df가 0일 때를 방지한다. 직접 구현해보기 실습. 실습은 colab에서 진행했다. 한글 텍스트로 진행하기 위해서, konlpy 모듈을 설치해야 한다. 필요한 모듈들을 import 한다. Okt 모듈을 사용하기 위해서는 from konlpy.tag import Okt를 해야한다. doc_list 글들을 공백 기준으로 합치고, 그 다음 morphs()로 형태소 기준으로 토큰화한다. 그리고 set()함수로 겹치는 것들을 제거한다. TF : 특정 문서에서 특정 단어가 등장한 횟수 이므로, 문서에 있는 단어의 수를 count(..