-
[자연어 전처리] Konlpy를 이용한 한글 텍스트 워드클라우드🍓𝗪𝗲𝗯 2020. 8. 2. 20:20
실습 목표 :
최소 5줄 이상의 텍스트를 이용해,
konlpy 모듈로 토큰화하고,
stopwords 리스트를 만들어 이를 제거하고,
빈도수 딕셔너리를 만든 뒤,
이를 워드클라우드로 표현해보기
구글 Colab에서 진행!
5줄 이상의 텍스트는 한글가사로 가득 찬, 검정치마의 한시오분으로 했다❤️
우린 아직 흑백영화처럼 사랑하고
언제라도 쉽고 빠르게 표현하고맘에 없는 말은 절대 고민하지 않고
뭔가 아쉬울 땐, 밤 지새우고남들이 아니라는 것도 상관없지
우린 같은 템포, 다른 노래인 거야아직 더 서투르고 솔직해야 하지만
반복에 기계처럼 계산하고 준비된 사람들 하지만
자기야 나는 너를 매일 다른 이유로 더 사랑했었고이젠 한시 오분 멈춰있는
시계처럼 너 하나만 봐네가 없는 날은 어떻게든
흘러가기만 기다려
투명해진 날 누가 볼 수 있을까자기야 나는 너를 매일 다른 이유로 더 사랑했었고
이젠 한시 오분 멈춰있는
시계처럼 너 하나만 봐네가 없는 날은 어떻게든
흘러가기만 기다려
투명해진 날 누가 볼 수 있을까
konlpy 모듈은 무료지만 속도가 느리다..! 한글 자연어 처리를 쉽게 할수 있게끔 한 오픈소스 라이브러리이다.
코랩에서 하려면, 매번 할 때마다 모듈을 설치해야 한다.
Okt() 모듈로 형태소를 분석하기 위해, 그리고 단어 빈도수를 체크하기 위해, 필요한 것들을 import 시켰다.
그리고 morphs()는 모든 품사를 추출하는 함수인데, 나는 이걸로 모든 단어들을 토큰화했다.
그리고 삭제했으면 하는 stopwords들을 지정해줬다.
그리고 stopwords를 포함하지 않는 sw_removed를 만들었다.
그리고 빈도수를 세는 Counter로 단어들의 빈도수를 딕셔너리 형태로 표현했다.
이제 WordCloud로 표현하는 일만 남았는데, 워드클라우드에 한글 폰트를 적용하는 방법은 다음과 같다.
my_wc = WordCloud(font_path = '경로/파일.ttf')
코랩에서 폰트를 설치해주기 위해서 다음과 같이 해야 한다! 이것도 매번...! ㅠㅜㅋㅋ
%config InlineBackend.figure_format = 'retina'
!apt -qq -y install fonts-nanum
import matplotlib.font_manager as fm
fontpath = '/usr/share/fonts/truetype/nanum/NanumBarunGothic.ttf'
font = fm.FontProperties(fname=fontpath, size=9)
plt.rc('font', family='NanumBarunGothic')
mpl.font_manager._rebuild()
빈도수로 워드클라우드를 만든 결과는 다음과 같았다.
실습끝 !
'🍓𝗪𝗲𝗯' 카테고리의 다른 글
[크롬의 개발자 도구 : 네트워크] 보는 법 공부 (0) 2020.08.05 [자연어 전처리] TF, DF, IDF 구현 실습 (0) 2020.08.02 [광주 인공지능사관학교 1기 아홉번째 날] HTML (0) 2020.07.16 [광주 인공지능 사관학교 1기 여섯째날] 얕게라도 웹 분야 다 공부해서 완성해서 내놓을 수 있게! (0) 2020.07.13 [부스트코스] 웹 UI 개발 <4. CSS이해하기> (0) 2020.05.15