데이터수집 4

토이프로젝트 - (2) 데이터 수집 (with pandas)

- 배경 토이프로젝트 - (1) 데이터 수집 (코스피 크롤링) 기본 배경 중간고사 기간은 끝났지만 아직 다음주에 시험이 1개 남아있다. 그래도 최근에 하루 1시간 정도 ... blog.naver.com 과거 라이브러리 사용 대신에 직접 크롤링하여 주가 데이터를 수집하려고 했다. 그래서 네이버 금융을 통해 수집하려 했으나, 코스피와 S&P500의 형식이 달라 다른 사이트에서 데이터를 수집하려고 한 상황이다. ​ 하지만 현재 네이버의 데이터 형식을 수정하여 데이터를 정상적으로 수집을 완료한 상태이다. - 코스피 데이터 수집 from bs4 import BeautifulSoup import pandas as pd import urllib.request as req import requests headers =..

토이프로젝트 - (1) 데이터 수집 (코스피 크롤링)

- 기본 배경 데이터분석 - 토이프로젝트 계획(주가 지수의 관계) 사전 정보 - 일정 : 4월 초 ~ 6월초까지 약 2개월 - 사용언어 : python - 분석 이유 : 평소 미국 증시와 한... blog.naver.com 중간고사 기간은 끝났지만 아직 다음주에 시험이 1개 남아있다. 그래도 최근에 하루 1시간 정도 계획했던 토이프로젝트를 진행하는데 사용하고 있다. 현재 1단계인 "데이터 수집"을 python의 BeautifulSoup을 이용하여 진행 중이다. 사실 네이버에서 코스피, 나스닥, S&P500 등의 지수들을 추출하여 데이터프레임 형태로 형식에 맞게 저장하려고 하였다. 하지만 문제가 발생하여 조금 더 시간이 걸릴 것 같다. 문제는 아래에서 설명하겠다. - 네이버 코스피 크롤링 from bs4 ..

데이터분석 - 토이프로젝트 계획(주가 지수의 관계)

출처 : 주요 주가 지수 - Investing.com - 사전 정보 - 일정 : 4월 초 ~ 6월초까지 약 2개월 - 사용언어 : python - 분석 이유 : 평소 미국 증시와 한국 증시의 상관성이 궁금하였기 때문이다. 출처 : 빅데이터 분석기사 필기 - 빅데이터 분석 기획 #2 (tistory.com) - 분석 기획 1. 평소 미국 경제는 한국뿐만 아니라 전세계적으로 영향력이 큰 편이다. 그렇기에 우리나라 코스피 지수와 나스닥, s&p500 등의 관계를 알아보려고 한다. 2. 간단한 토이프로젝트를 목표로 진행하려고 하기에, 주가 지수의 관계를 살펴보고 크게 인사이트를 얻기 어려운 상황 등이 발생하면 모델링까지는 진행하지 않으려 한다. 3. 주가와 관련되었기에 회귀나 분류의 주제가 적합할 것 같다. -..

실전 데이터 분석 - 데이터 수집부터 시각화까지(with 후쿠오카)

1. 시작에 앞서 요즘 데이터 분석 공부한 것을 활용도 하고, 2월 달에 갈 예정(?)인 후쿠오카에 대해 조사해보고 싶어 아침부터 열심히 코드를 작성했다. ​ 전체적인 틀은 약 340개의 후쿠오카 관련 포스팅의 내용 중에 많이 작성된 명사는 무엇인지 시각화하는 것이다. ​ 진행 단계 : 1. 웹 크롤링을 활용한 데이터 수집 2. 데이터 전처리 및 텍스트 마이닝 3. 데이터 시각화 2. import from selenium import webdriver from selenium.webdriver.common.keys import Keys import time from bs4 import BeautifulSoup import csv import pandas as pd import konlpy from wor..