1. 기초 지식
- 데이터 프레임 : 행과 열로 구성된 사각형 모양의 표
- 열 : 컬럼 또는 변수라고 부른다. (가로)
- 행 : 로 또는 케이스라고 부른다. (세로)
행이 반드시 사람이어야 하는 건 아니다. 하나의 단위가 하나의 행이 된다.
데이터가 크다는 뜻은 행이 많다 또는 열이 많다 라는 뜻이다.
행이 많다 -> 컴퓨터가 느려짐 -> 고사양 장비 구축
열이 많다 -> 분석 방법의 한계 -> 고급 분석 방법
빅데이터 보다는 다양한 변수가 담겨 있는 다양한 데이터가 더 중요하다.
2. pandas 및 데이터프레임 기초
- head() : 앞부분 출력(기본 5)
- tail() : 뒷부분 출력(기본 5)
- shape : 행, 열 개수 출력
- info() : 변수 속성 출력
- describe() : 요약 통계량 출력
- mean() : 평균
- read_excel() : 엑셀 파일 불러오기
- read_csv() : csv 파일 불러오기
- DataFrame.to_csv() : csv 파일로 저장
- copy() : 복사
- rename() : 변수명 변경
3. 함수, 메서드, 어트리뷰트 구분
1. 내장 함수
- 기본적으로 파이썬에 내장되어 있는 함수
ex) sum, max
2. 패키지 함수
- 패키지 함수는 패키지를 로드해야 사용할 수 있는 함수이다.
ex) import pandas as pd
pd.read_csv('exam.csv')
3. 메서드
- 변수가 지니고 있는 함수이다.
ex) df.head()
4. 어트리뷰트
- 변수가 지니고 있는 값이다.
메서드와 비슷하지만, 뒤에 괄호가 없다.
ex) df.shape
4. 파생변수 만들기
1.변수 조합하여 파생변수 만들기
EX) df_midterm['sum']=df_midterm['english']+df_midterm['math']
2. 조건문을 활용한 파생변수 만들기
EX) import numpy as np
df_midterm['test']=np.where(df_midterm['sum']>=140,'pass','fail')
5. 파생변수 정렬 및 그래프 만들기
1. 파생변수 빈도표 확인
EX) count_test=df_midterm['test'].value_counts()
2. 파생변수 빈도표 확인 및 정렬
EX) count_test=df_midterm['test'].value_counts().sort_index()
3. 파생변수 그래프로 출력
EX) count_test.plot.bar()
'프로그래밍 > 파이썬' 카테고리의 다른 글
데이터 분석 - 데이터 정제(결측치 이상치 제거, 대체) (3) | 2023.01.11 |
---|---|
데이터 분석-데이터 전처리 및 가공(feat. pandas) (3) | 2023.01.10 |
[Python] 아나콘다 설치 및 파이썬, JupyterLab 이용하기 (3) | 2023.01.07 |
[Django] 웹 프로그래밍 실습(5) - 로그인, 로그아웃, 회원가입 구현 (with alert 메시지) (0) | 2022.12.13 |
[Django] 웹 프로그래밍 실습(4) - 회원가입 (model 생성 및 view, admin 설정) (2) | 2022.12.12 |