[자연어 전처리] TF, DF, IDF 구현 실습

🍓𝗪𝗲𝗯 2020. 8. 2. 21:03

TF : 특정 문서에서 특정 단어가 등장한 횟수

DF : 특정 단어가 등장한 문서의 수

IDF : DF의 역수 -> 로그를 취해서, 수가 너무 커지는 것을 방지한다. 분모에는 1을 더해서 df가 0일 때를 방지한다.

직접 구현해보기 실습.

실습은 colab에서 진행했다.

한글 텍스트로 진행하기 위해서, konlpy 모듈을 설치해야 한다.

필요한 모듈들을 import 한다.

Okt 모듈을 사용하기 위해서는 from konlpy.tag import Okt를 해야한다.

doc_list 글들을 공백 기준으로 합치고,

그 다음 morphs()로 형태소 기준으로 토큰화한다.

그리고 set()함수로 겹치는 것들을 제거한다.

TF : 특정 문서에서 특정 단어가 등장한 횟수 이므로, 문서에 있는 단어의 수를 count() 한다.

IDF : DF의 역수를 구하는 건데, DF가 의미하는 바는 특정 단어가 등장한 문서의 수이므로,

각 문서마다 해당 단어가 있는지 확인해서 있으면 문서의 수를 증가하며 df 값을 구한다.

단어별 등장 횟수를 추가한다.

단어별 idf를 구한다.

실습 끝!

[Django] 파이썬 장고 기초 (0)	2020.08.12
[크롬의 개발자 도구 : 네트워크] 보는 법 공부 (0)	2020.08.05
[자연어 전처리] Konlpy를 이용한 한글 텍스트 워드클라우드 (0)	2020.08.02
[광주 인공지능사관학교 1기 아홉번째 날] HTML (0)	2020.07.16
[광주 인공지능 사관학교 1기 여섯째날] 얕게라도 웹 분야 다 공부해서 완성해서 내놓을 수 있게! (0)	2020.07.13

안오늘의 devlog