전체 글 462

EDA - 1단계 : 데이터 다루기 - 정렬, 결합

- 과거 내용 EDA - 1단계 : 데이터 다루기 - 비교, 필터링, 결측치 과거 내용 DataFrame - 비교, 필터링 1. 비교 40보다 큰 값은 True, 작거나 같은 값은 False로 나온다.... blog.naver.com - DataFrame - 정렬 1. 값 정렬 #원본 데이터 col1 col2 col3 row1 -3 A 7 row2 C 36 row3 5 D -5 #값 정렬 print(df.sort_values(by=['col1'],axis=0,ascending=True)) col1 col2 col3 row1 -3 A 7 row3 5 D -5 row2 C 36 by는 어떤 부분을 정렬할 지 선택하고, axis는 행과 열을 선택하고, ascending은 True일 때 오름차순, False일 ..

EDA - 1단계 : 데이터 다루기 - 비교, 필터링, 결측치

- 과거 내용 EDA - 1단계 : 데이터 다루기 - 함수 적용, 인덱싱 과거 내용 DataFrame - 함수 적용 1. apply 축 기준이 불가한 경우 개별 적용하여 결과값을 출력한다. 옵... blog.naver.com - DataFrame - 비교, 필터링 1. 비교 #원본 데이터 col1 col2 col3 row1 10 20 30 row2 40 50 60 row3 70 80 90 #값 비교(True or False) print(df.gt(40)) col1 col2 col3 row1 False False False row2 False True True row3 True True True 40보다 큰 값은 True, 작거나 같은 값은 False로 나온다. 이외에도 lt, ge, le, eq, ne가..

EDA - 1단계 : 데이터 다루기 - 함수 적용, 인덱싱

- 과거 내용 EDA - 1단계 : 데이터 다루기 - 객체 내 연산 과거내용 DataFrame - 객채 내 연산 1. 반올림 0은 일의자리까지 반올림, n은 소수n번째 자리까지 반올림... blog.naver.com - DataFrame - 함수 적용 1. apply #원본 데이터 col1 col2 col3 row1 1 2 3 row2 4 5 6 row3 7 8 9 #개별 적용 df=df.apply(np.sqrt) col1 col2 col3 row1 1.000000 1.414214 1.732051 row2 2.000000 2.236068 2.449490 row3 2.645751 2.828427 3.000000 #축 기준 적용 df=dp.apply(np.sum) col1 12 col2 15 col3 18 ..

EDA - 1단계 : 데이터 다루기 - 객체 내 연산

- 과거내용 EDA - 1단계 : 데이터 다루기 - 객체 간 연산 과거 내용 Dataframe - 객체 간 연산 데이터를 원하는 데로 다룰 수 있어야 더 좋은 분석을 할 수 있다. ... blog.naver.com - DataFrame - 객채 내 연산 #원본 데이터 data=[[1.25,2.23],[3.21,4.56]] col=['col1','col2'] row=['row1','row2'] df = pd.DataFrame(data=data, index=row, columns=col) 출력 col1 col2 row4 1.25 2.23 row5 3.21 4.56 1. 반올림 #반올림 df.round(0) df.round(1) 출력 col1 col2 row4 1.0 2.0 row5 3.0 5.0 col1 c..

EDA - 1단계 : 데이터 다루기 - 객체 간 연산

- 과거 내용 데이터 분석 - EDA(탐색적 데이터 분석) 개념 EDA 쉽게 말하면 초기 데이터를 조사하고 주요 특징을 찾아 어떻게 분석해나갈지 찾아가는 데이터 분석... blog.naver.com - Dataframe - 객체 간 연산 데이터를 원하는 데로 다룰 수 있어야 더 좋은 분석을 할 수 있다. 그렇기에 지금부터 Dataframe을 다루는 연습을 할 것이다. ​ - 원본 데이터 data=[[1,2],[3,4],[5,6]] col=['col1','col2'] row=['row4','row5','row6'] df = pd.DataFrame(data=data, index=row, columns=col) 출력 col1 col2 row4 1 2 row5 3 4 row6 5 6 1. 더하기 #스칼라 값 더..

데이터 분석 - EDA(탐색적 데이터 분석) 개념

- EDA 쉽게 말하면 초기 데이터를 조사하고 주요 특징을 찾아 어떻게 분석해나갈지 찾아가는 데이터 분석의 기초 단계이다. 참고로 ADsP 자격증을 취득할 때 개념적으로 학습했었다. ​ ​ - EDA 종류 시각화 : seaborn, matplotlib 등의 시각화 라이브러리를 통해 차트, 그림 등으로 표현한다. 비시각화 : 통계 요약본의 값을 보며 정확한 값을 파악할 수 있다. ​ - EDA 대상 일변량 : 독립변수와 종속변수가 모두 1개인 경우이다. 그 대상을 관찰하고 분석하여 패턴을 얻는다. 다변량 : 독립변수와 종속변수가 여러 개인 경우이다. 주로 변수들간의 관계를 분석하는 것이 유용하다. ​ - EDA 유형 일변량 -> 비시각화, 시각화 다변량 -> 비시각화, 시각화 출처 : EDA (Explor..

토이프로젝트 - (11) 다변량 선형 확률과정 - 5단계

- 과거 내용 토이프로젝트 - (10) 다변량 선형 확률과정 - 4단계 과거 내용 다변량 시계열 모델 1. ARCH 오차항의 분산의 현재값이 이전 오차항의 제곱값들에 의존할 것... blog.naver.com - VECM(오차수정모형) 두 시계열 데이터가 공적분 관계를 가지고 있다면 정상성을 만족하지 않아도 차분을 진행하지 않고 바로 모형에 데이터를 적합시킬 수 있다. ​ - VECM 코드 def vecm_model(df): from statsmodels.tsa.vector_ar import vecm vmodel = vecm.VECM(endog = df, k_ar_diff = 9, coint_rank = 3, deterministic = 'ci') model_fit = vmodel.fit() print(..

토이프로젝트 - (10) 다변량 선형 확률과정 - 4단계

- 과거 내용 토이프로젝트 - (9) 다변량 선형 확률과정 - 3단계 과거내용 공적분 검정 비정상 시계열의 차분 횟수가 d라고 할 때, 이를 적분 차수라고 부른다. 시계열의 적... blog.naver.com - 다변량 시계열 모델 1. ARCH 오차항의 분산의 현재값이 이전 오차항의 제곱값들에 의존할 것이라는 가정에서 시작한다. 이는 제곱을 하기에 방향에 따른 영향력을 반영하지 못하며, 모수가 많아져 모순이 발생하는 등의 다양한 문제가 발생할 확률이 있다. ​ + GARCH : ARCH보다 시계열 의존성을 표현하는 데 있어 모수의 수를 줄일 수 있다. 하지만 근본적으로 오차항의 분포가 비정규성인 것 등의 다양한 한계점이 존재한다. ​ 2. VAR(벡터자기회귀) 자기회귀식을 벡터로 쌓음으로써 2개 이상의..

토이프로젝트 - (9) 다변량 선형 확률과정 - 3단계

- 과거내용 토이프로젝트 - (8) 다변량 선형 확률과정 - 2단계 과거 내용 Granger 인과검정 전제조건 : 시계열 정상성, 테스트 방향 -> 정상성이 없는 경우, 차분을 ... blog.naver.com - 공적분 검정 비정상 시계열의 차분 횟수가 d라고 할 때, 이를 적분 차수라고 부른다. 시계열의 적분 차수가 모두 d일때, 시계열의 선형 결합의 적분 차수가 d보다 작을 때 시계열 사이에 공적분 관계가 존재한다고 한다. ​ 그레인저 검정을 했을 때 로그 변환과 차분을 통해 정상성을 만족시켜 검정을 진행했다. 하지만 이런 경우 통계학적 문제는 해결되나 장기적인 관계에 대한 정보는 잃어버린다. 그래서 공적분 검정을 통해 공적분 관계를 찾으면 "오차수정모형"을 사용해 장, 단기에 대한 정보도 파악할 ..

토이프로젝트 - (8) 다변량 선형 확률과정 - 2단계

- 과거 내용 토이프로젝트 - (7) 다변량 선형 확률과정 - 1단계 과거 내용 여러 가지 논문을 보고 VAR 모형과 Granger 인과검정 등을 사용하기로 결정했다. 서칭하다 ... blog.naver.com - Granger 인과검정 그래인저 인과관계 - Granger Causality :: 인투더데이터 데이터과학 위키 Datascience Wiki 그래인저 인과관계 - Granger Causality 개요 닭이 먼저인가 달걀이 먼저인가? 실없는 유머나 말장난 같지만 과학적으로 닭이 먼저인가 달걀이 먼저인가?와 같은 인과관계를 파악하는 것은 매우 어려 intothedata.com 전제조건 : 시계열 정상성, 테스트 방향 -> 정상성이 없는 경우, 차분을 통해 해결할 수도 있다. ​ Granger 인과..