EDA 24

EDA - 4단계 : 캐글 타이타닉 코드 분석

전체 코드 주피터 노트북으로 작성한 내용을 html 파일로 저장한 것이다. 아래에서 다룰 내용을 모두 포함한 코드이다. ​ 1. 라이브러리 import import pandas as pd import numpy as np from sklearn.preprocessing import LabelEncoder train_df=pd.read_csv("train.csv") test_df=pd.read_csv("test.csv") submission = pd.read_csv("gender_submission.csv") train_df.head() #survivce : 생존여부, Pclass : 티켓 등급 #sibsp : 승선 중인 형제나 배우자의 수 #parch : 승선 중인 부모나 자녀의 수 #ticket : 티..

EDA - 3단계 : 캐글 스터디 마무리

과거 내용 EDA - 3단계 : 캐글 스터디(1) 1주차 교재 : 교재는 2개로 진행을 하는데, 메인은 쉽게 시작하는 캐글 데이터 분석이다. 1주차는 그냥 탐... blog.naver.com 스터디 진행 중간에 해당 커리큘럼을 살짝 수정했지만 위 내용과 거의 비슷하게 스터디를 진행했다. ​ 9월 16일부터 10월 28일까지 중에 6번을 토요일에 오프라인으로 만나 각자 준비한 퀴즈를 모아서 풀어보는 형태와 자기가 학습해서 얻은 결과 코드를 발표하는 방식으로 학습했다. ​ 교재는 혼자 공부하는 머신러닝+딥러닝과 쉽게 시작하는 캐글 데이터 분석까지 총 2개를 사용했다. 전자의 경우 머신러닝 범위까지인 chapter6까지, 후자의 경우 4장까지 학습했다. ​ 핑계긴 하지만, 과제, 수업내용 복습, 중간고사 준비..

EDA - 3단계 : 캐글 스터디(1)

1주차 교재 : 쉽게 시작하는 캐글 데이터 분석 : 네이버 도서 네이버 도서 상세정보를 제공합니다. search.shopping.naver.com 혼자 공부하는 머신러닝+딥러닝 : 네이버 도서 네이버 도서 상품과 정보를 제공합니다. search.shopping.naver.com 교재는 2개로 진행을 하는데, 메인은 쉽게 시작하는 캐글 데이터 분석이다. 1주차는 그냥 탐색 및 개발환경 구축 정도이다. 3주차부터 제대로 된 분석을 할 예정이다. 학습 내용 ​1주차 진행 : 본교재(0~2강), 부교재 강의(1,2강 시청) ​ 부교재 강의 : 1강, 2강 진행 내용 : 출처 : [혼자 공부하는 머신러닝+딥러닝] 1강. 인공지능, 머신러닝 그리고 딥러닝이란 무엇인가? - YouTube 1강은 인공지능의 발전사를 ..

EDA - 3단계 : 캐글 스터디(with TAVE 12기)

스터디 9월 16일 토요일부터 TAVE 12기 과정을 통해 10월 30일 정도까지 매주 토요일에 스터디를 2시간씩 진행할 예정이다. ​ 데이터 분석 분야의 스터디는 머신러닝과 캐글, 데이터 분석 기초로 총 3개로 분류되었고, 그중에서 Level 1과 2로 또 나뉘게 된다. 머신러닝과 캐글 둘 중에서 고민을 하였고, 캐글로 선택하였다. 전반기는 스터디를 진행하고, 후반기에는 프로젝트 혹은 공모전 등을 참여할 예정에 있다. ​ 아직 스터디 경험이나 프로젝트 경험이 적기 때문에 어려운 과정을 하기 보다는 어떻게 진행되는지 그 과정을 중심으로 배우려고 한다. 스터디 진행 위의 책을 기반으로 하고, 추가로 인프런이나 유튜브 강의 영상 등을 참조하여 스터디를 진행하기로 했다. ​ 현재 대강 7주차까지의 주차별 계획..

EDA - 2단계 : 실제 데이터 다루기 (5)

- 출처 빅데이터 연합 동아리 BITAmin : 네이버 카페 빅데이터 연합 동아리 비타민입니다. cafe.naver.com 6기 멤버 코테 내용이다. 주피터 노트북을 환경으로 했다. - 문제1 a = 10 b = (1.44,'bitamin') c = "비타민" d = [1, 2, 3, 4, 5] e = {'특별시':'천안','충남':'서울','인천':'광역시'} a, b, c, d, e의 데이터에 대한 타입(type)을 출력하시오. 그리고 주석을 이용해 그 타입에 대한 설명을 간략히 하시오. ​ 풀이 : print(type(a)) print(type(b)) print(type(c)) print(type(d)) print(type(e)) - 문제2 score = [90,25,67,45,80] score는 ..

EDA - 2단계 : 실제 데이터 다루기 (4)

- 출처 빅데이터 연합 동아리 BITAmin : 네이버 카페 빅데이터 연합 동아리 비타민입니다. cafe.naver.com 11기 멤버 코테 내용이다. 주피터 노트북을 환경으로 했다. - 문제1 문제 1 - 20점 ​ 문제 [1-1] - 3점 ​ 2023년 1월 29일, 자신의 이름, MBTI, 핸드폰 번호 뒷자리를 리스트로 저장하고 그것을 Series의 형태로 변환하여 출력하세요 list=['2023-01-29','홍길동','ESFP',0123] pd.Series(list) 문제 [1-2] - 3점 ​ 딕셔너리를 사용하여 다음의 DataFrame 모양을 만들어 출력하세요.(DataFrame은 df로 저장해주세요) data={'사람1':[95,100,90,80],'사람2':[85,85,90,100],'사..

EDA - 2단계 : 실제 데이터 다루기 (3)

- 출처 빅데이터 연합 동아리 BITAmin : 네이버 카페 빅데이터 연합 동아리 비타민입니다. cafe.naver.com 10기 멤버 코테 내용이다. 주피터 노트북을 환경으로 했다. - 문제1 1. midwest.csv를 불러와 midwest에 저장하고, 위에서부터 10행까지 출력하시오. midwest=pd.read_csv("midwest.csv") midwest.head(10) 2. popwhite는 해당 지역의 아시아인 인구, poptotal은 해당 지역의 전체 인구를 나타냅니다. midwest 데이터에 '전체 인구 대비 아시아인 인구 백분율' 변수인 percent 열을 추가하세요. midwest['percent']=(midwest['popwhite'])/midwest['poptotal']*100 ..

EDA - 2단계 : 실제 데이터 다루기 (2)

- 출처 빅데이터 연합 동아리 BITAmin : 네이버 카페 빅데이터 연합 동아리 비타민입니다. cafe.naver.com 멤버 9기 코딩 테스트 문제입니다. 환경은 주피터 노트북입니다. - 문제1 1번 tips 에서 day 열값 분포를 구하세요. 수치형 데이터의 요약 (평균, 사분위 수 등)을 구하시오. tips['day'].value_counts() tips.describe() 2번 sex 별 tip 의 최댓값을 구하세요. Hint: loc[ ] male=tips['sex']=="Male" female=tips['sex']=="Female" max_male=tips['tip'].loc['male'].max() max_female=tips['tip'].loc['female'].max() 3번 total..

EDA - 2단계 : 실제 데이터 다루기 (1)

- 출처 빅데이터 연합 동아리 BITAmin : 네이버 카페 빅데이터 연합 동아리 비타민입니다. cafe.naver.com 8기 멤버 문제이다. 개발 환경은 주피터 노트북이다. - 문제1 1. iris의 species 열 값 분포를 확인하시오. iris['species'].value_counts() 결과 setosa 50 versicolor 50 virginica 50 Name: species, dtype: int64 2. species 별로 각 변수의 최댓값을 구하시오. iris.groupby('species').max() 결과 : ​ 3. iris의 species 열 값을 setosa는 1, 그 외의 값들은 0으로 변환하시오. (apply, lambda 사용) iris['species']=iris['..

EDA - 1단계 : 데이터 다루기 - 변환

- 과거 내용 EDA - 1단계 : 데이터 다루기 - 멀티인덱스, 반복 과거내용 DataFrame - 멀티인덱스 1. 하위분류변환 xs를 통해서 하위분류변환을 할 수 있다. 위는 B와 ... blog.naver.com - DataFrame - 변환 1. csv 변환 #csv 변환 df.to_csv(path_or_buf='test.csv') 기본적으로 to_csv를 통해서 변환을 한다. path_or_buf는 저장할 경로를 지정하는 옵션이다. 이외에도 sep은 구분자, na_rep은 결측값에 대한 설정, float_format은 소수점의 형식 설정, columns는 출력 열 지정 등 다양한 옵션이 존재한다. ​ 2. excel 변환 #excel로 변환 df.to_excel(excel_writer='test..