프로그래밍/파이썬

[Python] 데이터 분석 기초(pandas, numpy, 파생변수)

매 석 2023. 1. 8. 20:45
반응형

1. 기초 지식

- 데이터 프레임 : 행과 열로 구성된 사각형 모양의 표

- : 컬럼 또는 변수라고 부른다. (가로)

- : 로 또는 케이스라고 부른다. (세로)

행이 반드시 사람이어야 하는 건 아니다. 하나의 단위가 하나의 행이 된다.

데이터가 크다는 뜻은 행이 많다 또는 열이 많다 라는 뜻이다.

행이 많다 -> 컴퓨터가 느려짐 -> 고사양 장비 구축

열이 많다 -> 분석 방법의 한계 -> 고급 분석 방법

빅데이터 보다는 다양한 변수가 담겨 있는 다양한 데이터가 더 중요하다.

 

 

 

2. pandas 및 데이터프레임 기초

- head() : 앞부분 출력(기본 5)

- tail() : 뒷부분 출력(기본 5)

- shape : 행, 열 개수 출력

- info() : 변수 속성 출력

- describe() : 요약 통계량 출력

- mean() : 평균

- read_excel() : 엑셀 파일 불러오기

- read_csv() : csv 파일 불러오기

- DataFrame.to_csv() : csv 파일로 저장

- copy() : 복사

- rename() : 변수명 변경

 

 

3. 함수, 메서드, 어트리뷰트 구분

1. 내장 함수

- 기본적으로 파이썬에 내장되어 있는 함수

ex) sum, max

2. 패키지 함수

- 패키지 함수는 패키지를 로드해야 사용할 수 있는 함수이다.

ex) import pandas as pd

pd.read_csv('exam.csv')

3. 메서드

- 변수가 지니고 있는 함수이다.

ex) df.head()

4. 어트리뷰트

- 변수가 지니고 있는 값이다.

메서드와 비슷하지만, 뒤에 괄호가 없다.

ex) df.shape

 

 

4. 파생변수 만들기

1.변수 조합하여 파생변수 만들기

EX) df_midterm['sum']=df_midterm['english']+df_midterm['math']

2. 조건문을 활용한 파생변수 만들기

EX) import numpy as np

df_midterm['test']=np.where(df_midterm['sum']>=140,'pass','fail')

 

 

5. 파생변수 정렬 및 그래프 만들기

1. 파생변수 빈도표 확인

EX) count_test=df_midterm['test'].value_counts()

2. 파생변수 빈도표 확인 및 정렬

EX) count_test=df_midterm['test'].value_counts().sort_index()

3. 파생변수 그래프로 출력

EX) count_test.plot.bar()