결측치 3

EDA - 1단계 : 데이터 다루기 - 비교, 필터링, 결측치

- 과거 내용 EDA - 1단계 : 데이터 다루기 - 함수 적용, 인덱싱 과거 내용 DataFrame - 함수 적용 1. apply 축 기준이 불가한 경우 개별 적용하여 결과값을 출력한다. 옵... blog.naver.com - DataFrame - 비교, 필터링 1. 비교 #원본 데이터 col1 col2 col3 row1 10 20 30 row2 40 50 60 row3 70 80 90 #값 비교(True or False) print(df.gt(40)) col1 col2 col3 row1 False False False row2 False True True row3 True True True 40보다 큰 값은 True, 작거나 같은 값은 False로 나온다. 이외에도 lt, ge, le, eq, ne가..

토이프로젝트 - (3) 결측치 확인 및 처리

- 과거 토이프로젝트 - (2) 데이터 수집 (with pandas) - 배경 토이프로젝트 - (1) 데이터 수집 (코스피 크롤링) 기본 배경 중간고사 기간은 끝났지만 아직 다음주에 시험이 1개 남아있다. 그래도 최근에 하루 1시간 정도 ... blog.naver.com 과거 라이브러리 maeseok.tistory.com 이전 내용은 위의 링크를 참고하면 된다. - 데이터 값 비교 NASDAQ S&P500 같은 4671개의 row를 가지지만, date를 확인해보면 마지막 날짜가 다른 것을 확인할 수 있다. 이를 찾기 위해 범위를 줄여가며 값을 찾아본 결과 그 예시로 20090907를 찾을 수 있었다. 이 날 나스닥의 값은 없는데, S&P500의 값은 있었다. 다른 사이트에서는 이 날 둘의 데이터 모두 없..

데이터 분석 - 데이터 정제(결측치 이상치 제거, 대체)

1. 빠진 데이터 찾기 결측치 : 누락된 값, 비어 있는 값을 의미한다. pandas - isna() : 결측치 확인(boolean값으로 반환) inna().sum() : 결측치 빈도 확인 dropna(subset=[]) : 결측치 제거 dropna() : 모든 변수에 결측치 제거 (꼭 필요할 때만 사용) 원본 코드 import pandas as pd import numpy as np df = pd.DataFrame({'sex':['M','F',np.nan,'M','F']}, 'score':[5,4,3,4,np.nan]) print(df) print(pd.isna(df)) print(pd.isna(df).sum()) print(df.dropna(subset=['score'])) print(df.dropn..