데이터전처리 3

데이터분석 - 토이프로젝트 계획(주가 지수의 관계)

출처 : 주요 주가 지수 - Investing.com - 사전 정보 - 일정 : 4월 초 ~ 6월초까지 약 2개월 - 사용언어 : python - 분석 이유 : 평소 미국 증시와 한국 증시의 상관성이 궁금하였기 때문이다. 출처 : 빅데이터 분석기사 필기 - 빅데이터 분석 기획 #2 (tistory.com) - 분석 기획 1. 평소 미국 경제는 한국뿐만 아니라 전세계적으로 영향력이 큰 편이다. 그렇기에 우리나라 코스피 지수와 나스닥, s&p500 등의 관계를 알아보려고 한다. 2. 간단한 토이프로젝트를 목표로 진행하려고 하기에, 주가 지수의 관계를 살펴보고 크게 인사이트를 얻기 어려운 상황 등이 발생하면 모델링까지는 진행하지 않으려 한다. 3. 주가와 관련되었기에 회귀나 분류의 주제가 적합할 것 같다. -..

실전 데이터 분석 - 데이터 수집부터 시각화까지(with 후쿠오카)

1. 시작에 앞서 요즘 데이터 분석 공부한 것을 활용도 하고, 2월 달에 갈 예정(?)인 후쿠오카에 대해 조사해보고 싶어 아침부터 열심히 코드를 작성했다. ​ 전체적인 틀은 약 340개의 후쿠오카 관련 포스팅의 내용 중에 많이 작성된 명사는 무엇인지 시각화하는 것이다. ​ 진행 단계 : 1. 웹 크롤링을 활용한 데이터 수집 2. 데이터 전처리 및 텍스트 마이닝 3. 데이터 시각화 2. import from selenium import webdriver from selenium.webdriver.common.keys import Keys import time from bs4 import BeautifulSoup import csv import pandas as pd import konlpy from wor..

데이터 분석-데이터 전처리 및 가공(feat. pandas)

1. 데이터 전처리 분석에 적합하게 데이터를 가공하는 작업 2. 데이터 전처리에 유용한 pandas 명령어 - 원본 데이터 ​ ​ 1. query() : 행 추출 실행 명령어 : exam.query('nclass=1') 활용 명령어 : exam.query('nclass==1 | nclass==3 | nclass==5') + 추출한 행으로 데이터 만들기 test=exam.query('nclass==1 | nclass==3 | nclass==5') test['math'].mean() ​ ​ 2. 데이터프레임명[] : 열 추출 실행 명령어 : exam[['nclass','math','english']] + 특정 변수 제거하기 exam.drop(columns = 'math') ​ ​ 3. query() + 데이..