-
[자연어 전처리] Konlpy를 이용한 한글 텍스트 워드클라우드🍓𝗪𝗲𝗯 2020. 8. 2. 20:20
실습 목표 :
최소 5줄 이상의 텍스트를 이용해,
konlpy 모듈로 토큰화하고,
stopwords 리스트를 만들어 이를 제거하고,
빈도수 딕셔너리를 만든 뒤,
이를 워드클라우드로 표현해보기
구글 Colab에서 진행!
5줄 이상의 텍스트는 한글가사로 가득 찬, 검정치마의 한시오분으로 했다❤️
우린 아직 흑백영화처럼 사랑하고
언제라도 쉽고 빠르게 표현하고맘에 없는 말은 절대 고민하지 않고
뭔가 아쉬울 땐, 밤 지새우고남들이 아니라는 것도 상관없지
우린 같은 템포, 다른 노래인 거야아직 더 서투르고 솔직해야 하지만
반복에 기계처럼 계산하고 준비된 사람들 하지만
자기야 나는 너를 매일 다른 이유로 더 사랑했었고이젠 한시 오분 멈춰있는
시계처럼 너 하나만 봐네가 없는 날은 어떻게든
흘러가기만 기다려
투명해진 날 누가 볼 수 있을까자기야 나는 너를 매일 다른 이유로 더 사랑했었고
이젠 한시 오분 멈춰있는
시계처럼 너 하나만 봐네가 없는 날은 어떻게든
흘러가기만 기다려
투명해진 날 누가 볼 수 있을까
konlpy 모듈은 무료지만 속도가 느리다..! 한글 자연어 처리를 쉽게 할수 있게끔 한 오픈소스 라이브러리이다.
코랩에서 하려면, 매번 할 때마다 모듈을 설치해야 한다.
Okt() 모듈로 형태소를 분석하기 위해, 그리고 단어 빈도수를 체크하기 위해, 필요한 것들을 import 시켰다.
출처 : 검정치마 한시 오분 가사 그리고 morphs()는 모든 품사를 추출하는 함수인데, 나는 이걸로 모든 단어들을 토큰화했다.
그리고 삭제했으면 하는 stopwords들을 지정해줬다.
그리고 stopwords를 포함하지 않는 sw_removed를 만들었다.
그리고 빈도수를 세는 Counter로 단어들의 빈도수를 딕셔너리 형태로 표현했다.
이제 WordCloud로 표현하는 일만 남았는데, 워드클라우드에 한글 폰트를 적용하는 방법은 다음과 같다.
my_wc = WordCloud(font_path = '경로/파일.ttf')
코랩에서 폰트를 설치해주기 위해서 다음과 같이 해야 한다! 이것도 매번...! ㅠㅜㅋㅋ
%config InlineBackend.figure_format = 'retina'
!apt -qq -y install fonts-nanum
import matplotlib.font_manager as fm
fontpath = '/usr/share/fonts/truetype/nanum/NanumBarunGothic.ttf'
font = fm.FontProperties(fname=fontpath, size=9)
plt.rc('font', family='NanumBarunGothic')
mpl.font_manager._rebuild()
빈도수로 워드클라우드를 만든 결과는 다음과 같았다.
실습끝 !
'🍓𝗪𝗲𝗯' 카테고리의 다른 글
[크롬의 개발자 도구 : 네트워크] 보는 법 공부 (0) 2020.08.05 [자연어 전처리] TF, DF, IDF 구현 실습 (0) 2020.08.02 [광주 인공지능사관학교 1기 아홉번째 날] HTML (0) 2020.07.16 [광주 인공지능 사관학교 1기 여섯째날] 얕게라도 웹 분야 다 공부해서 완성해서 내놓을 수 있게! (0) 2020.07.13 [부스트코스] 웹 UI 개발 <4. CSS이해하기> (0) 2020.05.15