IT지식/빅데이터 26

데이터 분석 - EDA(탐색적 데이터 분석) 개념

- EDA 쉽게 말하면 초기 데이터를 조사하고 주요 특징을 찾아 어떻게 분석해나갈지 찾아가는 데이터 분석의 기초 단계이다. 참고로 ADsP 자격증을 취득할 때 개념적으로 학습했었다. ​ ​ - EDA 종류 시각화 : seaborn, matplotlib 등의 시각화 라이브러리를 통해 차트, 그림 등으로 표현한다. 비시각화 : 통계 요약본의 값을 보며 정확한 값을 파악할 수 있다. ​ - EDA 대상 일변량 : 독립변수와 종속변수가 모두 1개인 경우이다. 그 대상을 관찰하고 분석하여 패턴을 얻는다. 다변량 : 독립변수와 종속변수가 여러 개인 경우이다. 주로 변수들간의 관계를 분석하는 것이 유용하다. ​ - EDA 유형 일변량 -> 비시각화, 시각화 다변량 -> 비시각화, 시각화 출처 : EDA (Explor..

토이프로젝트 - (11) 다변량 선형 확률과정 - 5단계

- 과거 내용 토이프로젝트 - (10) 다변량 선형 확률과정 - 4단계 과거 내용 다변량 시계열 모델 1. ARCH 오차항의 분산의 현재값이 이전 오차항의 제곱값들에 의존할 것... blog.naver.com - VECM(오차수정모형) 두 시계열 데이터가 공적분 관계를 가지고 있다면 정상성을 만족하지 않아도 차분을 진행하지 않고 바로 모형에 데이터를 적합시킬 수 있다. ​ - VECM 코드 def vecm_model(df): from statsmodels.tsa.vector_ar import vecm vmodel = vecm.VECM(endog = df, k_ar_diff = 9, coint_rank = 3, deterministic = 'ci') model_fit = vmodel.fit() print(..

토이프로젝트 - (10) 다변량 선형 확률과정 - 4단계

- 과거 내용 토이프로젝트 - (9) 다변량 선형 확률과정 - 3단계 과거내용 공적분 검정 비정상 시계열의 차분 횟수가 d라고 할 때, 이를 적분 차수라고 부른다. 시계열의 적... blog.naver.com - 다변량 시계열 모델 1. ARCH 오차항의 분산의 현재값이 이전 오차항의 제곱값들에 의존할 것이라는 가정에서 시작한다. 이는 제곱을 하기에 방향에 따른 영향력을 반영하지 못하며, 모수가 많아져 모순이 발생하는 등의 다양한 문제가 발생할 확률이 있다. ​ + GARCH : ARCH보다 시계열 의존성을 표현하는 데 있어 모수의 수를 줄일 수 있다. 하지만 근본적으로 오차항의 분포가 비정규성인 것 등의 다양한 한계점이 존재한다. ​ 2. VAR(벡터자기회귀) 자기회귀식을 벡터로 쌓음으로써 2개 이상의..

토이프로젝트 - (8) 다변량 선형 확률과정 - 2단계

- 과거 내용 토이프로젝트 - (7) 다변량 선형 확률과정 - 1단계 과거 내용 여러 가지 논문을 보고 VAR 모형과 Granger 인과검정 등을 사용하기로 결정했다. 서칭하다 ... blog.naver.com - Granger 인과검정 그래인저 인과관계 - Granger Causality :: 인투더데이터 데이터과학 위키 Datascience Wiki 그래인저 인과관계 - Granger Causality 개요 닭이 먼저인가 달걀이 먼저인가? 실없는 유머나 말장난 같지만 과학적으로 닭이 먼저인가 달걀이 먼저인가?와 같은 인과관계를 파악하는 것은 매우 어려 intothedata.com 전제조건 : 시계열 정상성, 테스트 방향 -> 정상성이 없는 경우, 차분을 통해 해결할 수도 있다. ​ Granger 인과..

토이프로젝트 - (7) VAR - 1단계

- 과거 내용 토이프로젝트 - (6) 논문 분석 논문 사이트 여러 사이트에서 논문을 확인할 수 있지만 riss를 사용했다. 한국 증시, 미국 증시 관계에 대... blog.naver.com 여러 가지 논문을 보고 VAR 모형과 Granger 인과검정 등을 사용하기로 결정했다. 벡터자기회귀 모형(VAR)을 활용한 다변량 예측 모델링 - 국내 주요 기업 주가 및 거래량 예측 Step 1. VAR 이란? VAR이란 Vector Autoregression, 벡터자기회귀 모형을 의미한다. 기본적인 자기회귀모형이 단변량 시계열 예측에서 사용된다면 벡터자기회귀모형은 다변량 예측에 사용된다. 즉, 2개 이 songseungwon.tistory.com 서칭하다 보니, 다른 분이 정리해준 좋은 자료가 있어서 이 포스팅을 ..

토이프로젝트 - (6) 논문 분석

- 논문 사이트 http://www.riss.or.kr/index.do#qna www.riss.or.kr 여러 사이트에서 논문을 확인할 수 있지만 riss를 사용했다. - 한국 증시, 미국 증시 관계에 대한 논문 및 연구 1. 金守敬. "다우지수와 나스닥지수가 코스피와 코스닥에 미치는 영향에 관한 연구." 국내석사학위논문 진주산업대학교, 2003. 대한민국 ​ -> 구조방정식 모형 중 하나인 LISREL 모형 사용, 이는 구조모형과 측정모형으로 구성되어 있다. 모수는 최소자승법과 최우추정법을 이용하여 추정한다. 1997년 1월 ~2002년 9월까지 기간에서 다우는 코스피와 관계가 있고, 나스닥은 코스피와 코스닥 둘 다 큰 차이가 없다. 외국자본이 들어온 1998년 이후에는 상당히 큰 영향을 미치고 있다...

토이프로젝트 - (5) 선형회귀의 조건

- 이전 내용 토이프로젝트 - (4) 상관계수와 선형회귀 상관계수 pandas의 corr를 이용하여 두 변수간의 상관계수를 구할 수 있다. 공분산을 이용하여 상관계수를 ... blog.naver.com - 선형회귀의 조건 미국 증시와 한국 증시의 선형회귀 분석을 한 사례가 굉장히 많아서 나도 아무 생각없이 scipy로 선형회귀를 진행하였지만, 최근 이성효 교수님에게 해당 내용에 대해 질문하며 많은 사실을 배울 수 있었다. ​ 첫 째로, 미국 시장과 한국 시장의 시간이 다르다는 점은 결국 반영되는 주가의 날짜가 다르다는 것을 의미한다. 예시로 현재 06월 16일 금요일 오후 9시 기준의 사진이다. 코스피 다우 존스 이렇게 다우 존스는 06.16의 시세가 아직 생기지 않은 모습이다. 이를 어떻게 처리하느냐에..

토이프로젝트 - (4) 상관계수와 선형회귀

- 상관계수 pandas의 corr를 이용하여 두 변수간의 상관계수를 구할 수 있다. 공분산을 이용하여 상관계수를 구할 수 있는데 해당 내용은 아래 링크를 참조하면 된다. 통계학개론 - (4) 수치 척도(왜도, 공분산, 상관계수) 왜도 - 좌우측에 치우친 정도를 말한다. 1. 정대칭 : 왜도는 0이다. 평균은 중앙값과 같다. 2. 오른쪽 꼬리... blog.naver.com import pandas as pd import matplotlib.pyplot as plt def readData(name): return pd.read_csv(name+".csv") def madeData(name): value=readData(name) temp = pd.DataFrame({'Date':KS['date'],nam..

토이프로젝트 - (3) 결측치 확인 및 처리

- 과거 토이프로젝트 - (2) 데이터 수집 (with pandas) - 배경 토이프로젝트 - (1) 데이터 수집 (코스피 크롤링) 기본 배경 중간고사 기간은 끝났지만 아직 다음주에 시험이 1개 남아있다. 그래도 최근에 하루 1시간 정도 ... blog.naver.com 과거 라이브러리 maeseok.tistory.com 이전 내용은 위의 링크를 참고하면 된다. - 데이터 값 비교 NASDAQ S&P500 같은 4671개의 row를 가지지만, date를 확인해보면 마지막 날짜가 다른 것을 확인할 수 있다. 이를 찾기 위해 범위를 줄여가며 값을 찾아본 결과 그 예시로 20090907를 찾을 수 있었다. 이 날 나스닥의 값은 없는데, S&P500의 값은 있었다. 다른 사이트에서는 이 날 둘의 데이터 모두 없..

토이프로젝트 - (2) 데이터 수집 (with pandas)

- 배경 토이프로젝트 - (1) 데이터 수집 (코스피 크롤링) 기본 배경 중간고사 기간은 끝났지만 아직 다음주에 시험이 1개 남아있다. 그래도 최근에 하루 1시간 정도 ... blog.naver.com 과거 라이브러리 사용 대신에 직접 크롤링하여 주가 데이터를 수집하려고 했다. 그래서 네이버 금융을 통해 수집하려 했으나, 코스피와 S&P500의 형식이 달라 다른 사이트에서 데이터를 수집하려고 한 상황이다. ​ 하지만 현재 네이버의 데이터 형식을 수정하여 데이터를 정상적으로 수집을 완료한 상태이다. - 코스피 데이터 수집 from bs4 import BeautifulSoup import pandas as pd import urllib.request as req import requests headers =..