IT지식/빅데이터

데이터분석 - 토이프로젝트 계획(주가 지수의 관계)

매 석 2023. 3. 31. 12:09
반응형

 

 

- 사전 정보

 

- 일정 : 4월 초 ~ 6월초까지 약 2개월

- 사용언어 : python

- 분석 이유 : 평소 미국 증시와 한국 증시의 상관성이 궁금하였기 때문이다.

 

 

- 분석 기획

 

1. 평소 미국 경제는 한국뿐만 아니라 전세계적으로 영향력이 큰 편이다.

그렇기에 우리나라 코스피 지수와 나스닥, s&p500 등의 관계를 알아보려고 한다.

2. 간단한 토이프로젝트를 목표로 진행하려고 하기에, 주가 지수의 관계를 살펴보고

크게 인사이트를 얻기 어려운 상황 등이 발생하면 모델링까지는 진행하지 않으려 한다.

3. 주가와 관련되었기에 회귀나 분류의 주제가 적합할 것 같다.

 

- 데이터 수집

주가 데이터는 워낙 얻을 곳이 많고 정량적 데이터이기에 큰 어려움이 없을 듯 하다.

1. 파이썬에서 beautifulsoup이나 selenium 등을 통해서 직접 데이터 수집

2. 사이트 혹은 라이브러리, api 등을 통해 만들어진 데이터 사용

배우는 과정이고, 실무에서는 항상 데이터가 존재하지 않을 수도 있기에

직접 데이터를 수집하는 과정도 진행하려고 한다.

 

 

- 데이터 전처리

주가 데이터만 있기에 특별한 문제는 없을 듯 하다.

한국과 미국의 휴일에 대한 주가의 결측치를

제거하거나 적당한 값으로 보정하는 과정만 거치면 될 듯하다.

혹시 데이터가 문제가 있는지 이상치 등도 확인하려고 한다.

 

 

- 데이터 분석

 

데이터값 자체가 종류가 적고 목표하는 방향도 심플하기에

단순히 상관계수를 분석함으로써 끝이 날 수도 있다.

하지만 EDA, 상관분석, 회귀분석, 시각화 등을 진행하며 인사이트를 찾으려 한다.

해당 과정에서 아마 어려움을 겪을듯 하다.

다양한 기법들을 python으로 구현해보며 원하는 분석 방법을 찾아내는

반복적인 과정이 관건일듯 하다.

 

- 분석 평가

전체적으로 데이터 분석은 문제 없이 진행되었는지,

적절한 인사이트를 추출하였는지, 결과도출 과정 등

최종적인 점검을 통해 분석에 대한 평가를 하려고 한다.