IT지식/빅데이터

데이터 분석 - EDA(탐색적 데이터 분석) 개념

매 석 2023. 7. 4. 18:04
반응형

- EDA

쉽게 말하면 초기 데이터를 조사하고 주요 특징을 찾아 어떻게 분석해나갈지

찾아가는 데이터 분석의 기초 단계이다.

참고로 ADsP 자격증을 취득할 때 개념적으로 학습했었다.

- EDA 종류

시각화 : seaborn, matplotlib 등의 시각화 라이브러리를 통해 차트, 그림 등으로 표현한다.

비시각화 : 통계 요약본의 값을 보며 정확한 값을 파악할 수 있다.

- EDA 대상

일변량 : 독립변수와 종속변수가 모두 1개인 경우이다. 그 대상을 관찰하고 분석하여 패턴을 얻는다.

다변량 : 독립변수와 종속변수가 여러 개인 경우이다. 주로 변수들간의 관계를 분석하는 것이 유용하다.

- EDA 유형

일변량 -> 비시각화, 시각화

다변량 -> 비시각화, 시각화

 

 

- EDA 진행 단계

 

1단계 - 전체적인 데이터 분석하기

- 데이터가 csv 파일인지, PDF에서 추출했는지 등의 형태를 알아야 한다.

- 변수 및 데이터의 자료형, 데이터의 누락 등을 확인해야 한다.

- 분석의 목적과 목적에 맞는 변수를 확인해야 한다.

2단계 - 데이터의 개별 속성 값 확인하기

- head, tail, shape, info 등의 다양한 값을 확인해야 한다.

- 시각화를 통해 어떤 통계 지표가 적절한지 확인해야 한다.

- 평균, 중앙값, 4분위수 등의 통계적 값들을 확인해야 한다.

3단계 - 속성 간의 관계 분석하기

- 상관계수, 시각화 등을 통해 속성 간의 관계를 파악한다.

- corr() 함수나, seaborn 라이브러리 등을 사용한다.

 

- 데이터 전처리

- 이상치

표준편차 : x표준편차를 넘을 때 이상치라고 정한다. 이를 제거하는 경우와 제거하지 않는 경우가 따로 있다.

IQR : 4분위수를 이용해 특정 box를 넘어가는 범위를 이상치라고 정한다.

(Q1 – 1.5 IQR) 보다 작거나 (Q3 + 1.5 IQR) 큰 경우

- 결측치

완전 무작위 결측(MCAR) :

→ 결측치가 다른 변수들과 아무런 상관관계가 없는 경우

무작위 결측(MAR) :

→ 특정 변수와 관련되어 누락됐지만, 변수들의 상관관계를 알 수 없는 경우

비무작위 결측(NMAR) :

→ 누락된 변수의 값이 누락된 이유와 관련이 있는 경우