자연어
-
[자연어 전처리] TF, DF, IDF 구현 실습🍓𝗪𝗲𝗯 2020. 8. 2. 21:03
TF : 특정 문서에서 특정 단어가 등장한 횟수 DF : 특정 단어가 등장한 문서의 수 IDF : DF의 역수 -> 로그를 취해서, 수가 너무 커지는 것을 방지한다. 분모에는 1을 더해서 df가 0일 때를 방지한다. 직접 구현해보기 실습. 실습은 colab에서 진행했다. 한글 텍스트로 진행하기 위해서, konlpy 모듈을 설치해야 한다. 필요한 모듈들을 import 한다. Okt 모듈을 사용하기 위해서는 from konlpy.tag import Okt를 해야한다. doc_list 글들을 공백 기준으로 합치고, 그 다음 morphs()로 형태소 기준으로 토큰화한다. 그리고 set()함수로 겹치는 것들을 제거한다. TF : 특정 문서에서 특정 단어가 등장한 횟수 이므로, 문서에 있는 단어의 수를 count(..
-
[자연어 전처리] Konlpy를 이용한 한글 텍스트 워드클라우드🍓𝗪𝗲𝗯 2020. 8. 2. 20:20
실습 목표 : 최소 5줄 이상의 텍스트를 이용해, konlpy 모듈로 토큰화하고, stopwords 리스트를 만들어 이를 제거하고, 빈도수 딕셔너리를 만든 뒤, 이를 워드클라우드로 표현해보기 구글 Colab에서 진행! 5줄 이상의 텍스트는 한글가사로 가득 찬, 검정치마의 한시오분으로 했다❤️ 우린 아직 흑백영화처럼 사랑하고 언제라도 쉽고 빠르게 표현하고 맘에 없는 말은 절대 고민하지 않고 뭔가 아쉬울 땐, 밤 지새우고 남들이 아니라는 것도 상관없지 우린 같은 템포, 다른 노래인 거야 아직 더 서투르고 솔직해야 하지만 반복에 기계처럼 계산하고 준비된 사람들 하지만 자기야 나는 너를 매일 다른 이유로 더 사랑했었고 이젠 한시 오분 멈춰있는 시계처럼 너 하나만 봐 네가 없는 날은 어떻게든 흘러가기만 기다려 투..