- EDA
쉽게 말하면 초기 데이터를 조사하고 주요 특징을 찾아 어떻게 분석해나갈지
찾아가는 데이터 분석의 기초 단계이다.
참고로 ADsP 자격증을 취득할 때 개념적으로 학습했었다.
- EDA 종류
시각화 : seaborn, matplotlib 등의 시각화 라이브러리를 통해 차트, 그림 등으로 표현한다.
비시각화 : 통계 요약본의 값을 보며 정확한 값을 파악할 수 있다.
- EDA 대상
일변량 : 독립변수와 종속변수가 모두 1개인 경우이다. 그 대상을 관찰하고 분석하여 패턴을 얻는다.
다변량 : 독립변수와 종속변수가 여러 개인 경우이다. 주로 변수들간의 관계를 분석하는 것이 유용하다.
- EDA 유형
일변량 -> 비시각화, 시각화
다변량 -> 비시각화, 시각화
- EDA 진행 단계
1단계 - 전체적인 데이터 분석하기
- 데이터가 csv 파일인지, PDF에서 추출했는지 등의 형태를 알아야 한다.
- 변수 및 데이터의 자료형, 데이터의 누락 등을 확인해야 한다.
- 분석의 목적과 목적에 맞는 변수를 확인해야 한다.
2단계 - 데이터의 개별 속성 값 확인하기
- head, tail, shape, info 등의 다양한 값을 확인해야 한다.
- 시각화를 통해 어떤 통계 지표가 적절한지 확인해야 한다.
- 평균, 중앙값, 4분위수 등의 통계적 값들을 확인해야 한다.
3단계 - 속성 간의 관계 분석하기
- 상관계수, 시각화 등을 통해 속성 간의 관계를 파악한다.
- corr() 함수나, seaborn 라이브러리 등을 사용한다.
- 데이터 전처리
- 이상치
표준편차 : x표준편차를 넘을 때 이상치라고 정한다. 이를 제거하는 경우와 제거하지 않는 경우가 따로 있다.
IQR : 4분위수를 이용해 특정 box를 넘어가는 범위를 이상치라고 정한다.
(Q1 – 1.5 IQR) 보다 작거나 (Q3 + 1.5 IQR) 큰 경우
- 결측치
완전 무작위 결측(MCAR) :
→ 결측치가 다른 변수들과 아무런 상관관계가 없는 경우
무작위 결측(MAR) :
→ 특정 변수와 관련되어 누락됐지만, 변수들의 상관관계를 알 수 없는 경우
비무작위 결측(NMAR) :
→ 누락된 변수의 값이 누락된 이유와 관련이 있는 경우
'IT지식 > 빅데이터' 카테고리의 다른 글
토이프로젝트 - (11) 다변량 선형 확률과정 - 5단계 (2) | 2023.07.02 |
---|---|
토이프로젝트 - (10) 다변량 선형 확률과정 - 4단계 (1) | 2023.07.01 |
토이프로젝트 - (8) 다변량 선형 확률과정 - 2단계 (1) | 2023.06.27 |
토이프로젝트 - (7) VAR - 1단계 (1) | 2023.06.23 |
토이프로젝트 - (6) 논문 분석 (3) | 2023.06.20 |