프로그래밍/파이썬

데이터 분석 - 데이터 추출 및 자료 구조 다루기

매 석 2023. 1. 21. 16:52
반응형

1. 데이터 추출

#조건에 맞는 행 추출
df['변수명'] -> 변수의 행을 추출한다.
df['변수명']==? -> 조건에 맞는지 True, False로 확인할 수 있다.
df[df['변수명']==?] -> 조건에 맞으면 추출한다.

#열 추출
df['변수명']
df[['변수명','변수명2']]

#조건을 충족하는 행에서 열 추출
df[df['변수명']==?]['변수명2','변수명3']
df.groupby('변수명')[['변수명2','변수명3']]


#인덱스 문자열 지정해 행 추출
df.loc['문자열']
#인덱스 문자열 지정해 열 추출 
df.loc['문자열','변수명']
#인덱스 번호 지정해 행 추출 
df.loc[인덱스 번호]
#연속된 행 추출 (시작 이상 끝 이하 추출)
df.loc[시작:끝]
#조건을 충족하는 행 추출
df.loc[df['변수명']==?]

#인덱스 번호를 지정해 행 추출하기
df.iloc[인덱스 번호]
#연속된 행 추출 (시작 이상 끝 미만 추출)
df.iloc[시작:끝]

- loc : 인덱스 번호가 있어야지만 인덱스 번호로 출력 가능

- iloc : 없어도 인덱스 번호로 출력 가능, 조건을 만족하는 행 추출 불가능

 

 

2. 자료 구조 다루기

자료 구조 : 데이터를 담고 있는 변수의 모양을 의미한다.

#스칼라 : 하나의 값으로 구성된 자료 구조
x=1, x='a' 등을 포함한 하나의 값으로 이루어진 구조

#리스트 : 여러 값을 나열한 자료 구조
x=[1,2,3,4], y=[1,2,'a','b'] 등 스칼라 여러 개를 나열한 구조

#튜플 : 리스트와 비슷하지만 한 번 만들면 값을 수정할 수 없는 구조
x=(1,2,3,4), y=1,2,'a','b' 등 ()생략 가능

#딕셔너리 : 키와 값이 짝을 이루어 나열된 자료 구조
x={'name' : 'lee', 'id':[1,2,3]}

#시리즈 : 여러 값을 나열한 자료 구조, 데이터 프레임을 구성하는 하위 요소
x=pd.Series([3,4,5])
mp=pd.read_csv('mp.csv')
mp['test'] # 데이터 프레임에서 변수를 추출한 형태를 시리즈이다.

#데이터 프레임 : 행과 열로 구성된 사각형 모양의 표처럼 생긴 자료 구조
df=pd.DataFrame({'id' :[1,2,3], 'pwd':[4,5,6]})

- 각각의 형태에 맞게 자료 구조를 활용하여야 좋은 결과물을 추출할 수 있다.

 

3. 데이터 분석에 필요한 공공 데이터

  • 공공데이터포털 : data.go.kr
  • 서울 열린데이터 광장 : data.seoul.go.kr
  • 한국복지패널 : koweps.re.kr:442/main.do

-> 이 데이터를 분석하여 인사이트를 얻어 데이터 저널리스트가 될 수도 있다.

+ 치트 시트 : 자주 사용하는 함수와 파라미터를 요약한 메뉴얼

 

 

KDnuggets

Data Science, Machine Learning, AI & Analytics

www.kdnuggets.com