텍스트마이닝 2

실전 데이터 분석 - 데이터 수집부터 시각화까지(with 후쿠오카)

1. 시작에 앞서 요즘 데이터 분석 공부한 것을 활용도 하고, 2월 달에 갈 예정(?)인 후쿠오카에 대해 조사해보고 싶어 아침부터 열심히 코드를 작성했다. ​ 전체적인 틀은 약 340개의 후쿠오카 관련 포스팅의 내용 중에 많이 작성된 명사는 무엇인지 시각화하는 것이다. ​ 진행 단계 : 1. 웹 크롤링을 활용한 데이터 수집 2. 데이터 전처리 및 텍스트 마이닝 3. 데이터 시각화 2. import from selenium import webdriver from selenium.webdriver.common.keys import Keys import time from bs4 import BeautifulSoup import csv import pandas as pd import konlpy from wor..

데이터 분석 - 텍스트 마이닝(대통령 연설,기사 댓글)

1. 사전 설치 #konlpy의 의존성 패키지 pip install jpype1 pip install konlpy pip install wordcloud - konlpy는 자바가 설치되어 있어야 정상적으로 작동한다. 2. 텍스트 마이닝이란? - 텍스트 마이닝 : 문자로 된 데이터에서 가치 있는 정보를 얻는 분석 기법 - 형태소 분석 : 문장을 구성하는 어절들이 어떤 품사인지 파악 ​ 3. 가장 많이 사용된 단어 알아보기 소스 코드(1) #1. 연설문 불러오기 spe = open('speech_moon.txt', encoding='UTF-8').read() #2. 불필요한 특수 문자, 한자, 공백 등 한글 아닌 문자 제거 import re spe = re.sub('[^가-힣]',' ',spe) #3. 명사..