데이터분석 17

데이터 분석 - 텍스트 마이닝(대통령 연설,기사 댓글)

1. 사전 설치 #konlpy의 의존성 패키지 pip install jpype1 pip install konlpy pip install wordcloud - konlpy는 자바가 설치되어 있어야 정상적으로 작동한다. 2. 텍스트 마이닝이란? - 텍스트 마이닝 : 문자로 된 데이터에서 가치 있는 정보를 얻는 분석 기법 - 형태소 분석 : 문장을 구성하는 어절들이 어떤 품사인지 파악 ​ 3. 가장 많이 사용된 단어 알아보기 소스 코드(1) #1. 연설문 불러오기 spe = open('speech_moon.txt', encoding='UTF-8').read() #2. 불필요한 특수 문자, 한자, 공백 등 한글 아닌 문자 제거 import re spe = re.sub('[^가-힣]',' ',spe) #3. 명사..

데이터 분석 - 실전 데이터 분석(한국복지패널 데이터)

1. 사전 설치 pip install pyreadstat SPSS, SAS, STATA 등의 다양한 통계 분석을 위해 설치 추가로 vs code에서 jupyter notebook을 사용 중이다. 2. "한국복지패널 데이터" 분석 준비 배경 데이터 import pandas as pd import numpy as np import seaborn as sns #데이터 가져오기 raw = pd.read_spss('Koweps_hpwc14_2019_beta2.sav') #복사본 생성 welfare = raw.copy() welfare = welfare.rename( columns= {'h14_g3':'sex', #성별 'h14_g4': 'birth', #출생년도 'h14_g10' : 'marriage_type',..

데이터 분석 - 파이썬으로 그래프 만들기(seaborn)

1. seaborn 설치 pip3 install seaborn 2. 산점도 - 변수 간 관계 표현하기 소스 코드 (기본 차트) import pandas as pd mpg=pd.read_csv('mpg.csv') import seaborn as sns sns.scatterplot(data=mpg, x='displ', y='hwy') 결과 사진 ​ 소스 코드(축 범위 설정) import pandas as pd mpg=pd.read_csv('mpg.csv') import seaborn as sns sns.scatterplot(data=mpg, x='displ', y='hwy').set(xlim=(3,6), ylim=(10,30)) 결과 사진 ​ 소스 코드(표식 색깔 변경) import pandas as pd ..

데이터 분석 - 데이터 정제(결측치 이상치 제거, 대체)

1. 빠진 데이터 찾기 결측치 : 누락된 값, 비어 있는 값을 의미한다. pandas - isna() : 결측치 확인(boolean값으로 반환) inna().sum() : 결측치 빈도 확인 dropna(subset=[]) : 결측치 제거 dropna() : 모든 변수에 결측치 제거 (꼭 필요할 때만 사용) 원본 코드 import pandas as pd import numpy as np df = pd.DataFrame({'sex':['M','F',np.nan,'M','F']}, 'score':[5,4,3,4,np.nan]) print(df) print(pd.isna(df)) print(pd.isna(df).sum()) print(df.dropna(subset=['score'])) print(df.dropn..

[Python] 데이터 분석 기초(pandas, numpy, 파생변수)

1. 기초 지식 - 데이터 프레임 : 행과 열로 구성된 사각형 모양의 표 - 열 ​: 컬럼 또는 변수라고 부른다. (가로) - 행 : 로 또는 케이스라고 부른다. (세로) ​ 행이 반드시 사람이어야 하는 건 아니다. 하나의 단위가 하나의 행이 된다. 데이터가 크다는 뜻은 행이 많다 또는 열이 많다 라는 뜻이다. ​ 행이 많다 -> 컴퓨터가 느려짐 -> 고사양 장비 구축 열이 많다 -> 분석 방법의 한계 -> 고급 분석 방법 빅데이터 보다는 다양한 변수가 담겨 있는 다양한 데이터가 더 중요하다. 2. pandas 및 데이터프레임 기초 - head() : 앞부분 출력(기본 5) - tail() : 뒷부분 출력(기본 5) - shape : 행, 열 개수 출력 - info() : 변수 속성 출력 - descri..

[Python] 파이썬 바이낸스 시세 가져와서 웹으로 출력하기(feat. ccxt)

1. ccxt란? CCXT (CryptoCurrency eXchange Trading Library) 모듈은 자바스크립트, 파이썬, PHP와 같이 다양한 언어에서 범용적으로 사용할 수 있는 가상화폐 거래소 모듈입니다. 바이낸스 뿐만 아니라 비트파이넥스 (Bitfinex), 비트렉스 (bittrex), 크라켄 (kraken) 등등 125개 거래소의 API를 지원합니다. 출처 : https://wikidocs.net/31065 2. ccxt 설치하기 pip3 install ccxt import ccxt import re re 모듈의 경우는 아래 코드에서 사용할 예정이라 미리 import를 했습니다. 3. 바이낸스 객체 생성 후 ticker 가져오기 (COIN.py) #USDT 종목 생성 def usd_mad..

[Python] 파이썬 데이터 분석 - 야후 파이낸스 데이터의 문제점과 보완방법

1. 야후 파이낸스 삼성전자 데이터 시각화 from pandas_datareader import data as pdr import yfinance as yf yf.pdr_override() import matplotlib.pyplot as plt df = pdr.get_data_yahoo('005930.KS', '2022-01-01') # ① plt.figure(figsize=(9, 6)) #2행 1열 영역에서 첫 번째 영역을 선택 plt.subplot(2, 1, 1) # plt.title('Samsung (Yahoo Finance)') #종가를 파란색 점선으로 표시 plt.plot(df.index, df['Close'], 'b--', label='Close') # #수정된 종가를 청록색 실선으로 표시 ..