반응형
1. 데이터 추출
#조건에 맞는 행 추출
df['변수명'] -> 변수의 행을 추출한다.
df['변수명']==? -> 조건에 맞는지 True, False로 확인할 수 있다.
df[df['변수명']==?] -> 조건에 맞으면 추출한다.
#열 추출
df['변수명']
df[['변수명','변수명2']]
#조건을 충족하는 행에서 열 추출
df[df['변수명']==?]['변수명2','변수명3']
df.groupby('변수명')[['변수명2','변수명3']]
#인덱스 문자열 지정해 행 추출
df.loc['문자열']
#인덱스 문자열 지정해 열 추출
df.loc['문자열','변수명']
#인덱스 번호 지정해 행 추출
df.loc[인덱스 번호]
#연속된 행 추출 (시작 이상 끝 이하 추출)
df.loc[시작:끝]
#조건을 충족하는 행 추출
df.loc[df['변수명']==?]
#인덱스 번호를 지정해 행 추출하기
df.iloc[인덱스 번호]
#연속된 행 추출 (시작 이상 끝 미만 추출)
df.iloc[시작:끝]
- loc : 인덱스 번호가 있어야지만 인덱스 번호로 출력 가능
- iloc : 없어도 인덱스 번호로 출력 가능, 조건을 만족하는 행 추출 불가능
2. 자료 구조 다루기
자료 구조 : 데이터를 담고 있는 변수의 모양을 의미한다.
#스칼라 : 하나의 값으로 구성된 자료 구조
x=1, x='a' 등을 포함한 하나의 값으로 이루어진 구조
#리스트 : 여러 값을 나열한 자료 구조
x=[1,2,3,4], y=[1,2,'a','b'] 등 스칼라 여러 개를 나열한 구조
#튜플 : 리스트와 비슷하지만 한 번 만들면 값을 수정할 수 없는 구조
x=(1,2,3,4), y=1,2,'a','b' 등 ()생략 가능
#딕셔너리 : 키와 값이 짝을 이루어 나열된 자료 구조
x={'name' : 'lee', 'id':[1,2,3]}
#시리즈 : 여러 값을 나열한 자료 구조, 데이터 프레임을 구성하는 하위 요소
x=pd.Series([3,4,5])
mp=pd.read_csv('mp.csv')
mp['test'] # 데이터 프레임에서 변수를 추출한 형태를 시리즈이다.
#데이터 프레임 : 행과 열로 구성된 사각형 모양의 표처럼 생긴 자료 구조
df=pd.DataFrame({'id' :[1,2,3], 'pwd':[4,5,6]})
- 각각의 형태에 맞게 자료 구조를 활용하여야 좋은 결과물을 추출할 수 있다.
3. 데이터 분석에 필요한 공공 데이터
- 공공데이터포털 : data.go.kr
- 서울 열린데이터 광장 : data.seoul.go.kr
- 한국복지패널 : koweps.re.kr:442/main.do
-> 이 데이터를 분석하여 인사이트를 얻어 데이터 저널리스트가 될 수도 있다.
+ 치트 시트 : 자주 사용하는 함수와 파라미터를 요약한 메뉴얼
'프로그래밍 > 파이썬' 카테고리의 다른 글
EDA - 1단계 : 데이터 다루기 - 객체 간 연산 (1) | 2023.07.07 |
---|---|
토이프로젝트 - (9) 다변량 선형 확률과정 - 3단계 (2) | 2023.06.29 |
[알고리즘] 백준 2644 파이썬 - 촌수계산 (1) | 2023.01.21 |
데이터 분석 - 의사결정 나무 모델 만들기 (5) | 2023.01.19 |
데이터 분석 - 통계 분석 기법을 이용한 가설 검정 (5) | 2023.01.18 |