프로그래밍 257

EDA - 4단계 : 캐글 타이타닉 코드 분석

전체 코드 주피터 노트북으로 작성한 내용을 html 파일로 저장한 것이다. 아래에서 다룰 내용을 모두 포함한 코드이다. ​ 1. 라이브러리 import import pandas as pd import numpy as np from sklearn.preprocessing import LabelEncoder train_df=pd.read_csv("train.csv") test_df=pd.read_csv("test.csv") submission = pd.read_csv("gender_submission.csv") train_df.head() #survivce : 생존여부, Pclass : 티켓 등급 #sibsp : 승선 중인 형제나 배우자의 수 #parch : 승선 중인 부모나 자녀의 수 #ticket : 티..

EDA - 3단계 : 캐글 스터디 마무리

과거 내용 EDA - 3단계 : 캐글 스터디(1) 1주차 교재 : 교재는 2개로 진행을 하는데, 메인은 쉽게 시작하는 캐글 데이터 분석이다. 1주차는 그냥 탐... blog.naver.com 스터디 진행 중간에 해당 커리큘럼을 살짝 수정했지만 위 내용과 거의 비슷하게 스터디를 진행했다. ​ 9월 16일부터 10월 28일까지 중에 6번을 토요일에 오프라인으로 만나 각자 준비한 퀴즈를 모아서 풀어보는 형태와 자기가 학습해서 얻은 결과 코드를 발표하는 방식으로 학습했다. ​ 교재는 혼자 공부하는 머신러닝+딥러닝과 쉽게 시작하는 캐글 데이터 분석까지 총 2개를 사용했다. 전자의 경우 머신러닝 범위까지인 chapter6까지, 후자의 경우 4장까지 학습했다. ​ 핑계긴 하지만, 과제, 수업내용 복습, 중간고사 준비..

EDA - 3단계 : 캐글 스터디(1)

1주차 교재 : 쉽게 시작하는 캐글 데이터 분석 : 네이버 도서 네이버 도서 상세정보를 제공합니다. search.shopping.naver.com 혼자 공부하는 머신러닝+딥러닝 : 네이버 도서 네이버 도서 상품과 정보를 제공합니다. search.shopping.naver.com 교재는 2개로 진행을 하는데, 메인은 쉽게 시작하는 캐글 데이터 분석이다. 1주차는 그냥 탐색 및 개발환경 구축 정도이다. 3주차부터 제대로 된 분석을 할 예정이다. 학습 내용 ​1주차 진행 : 본교재(0~2강), 부교재 강의(1,2강 시청) ​ 부교재 강의 : 1강, 2강 진행 내용 : 출처 : [혼자 공부하는 머신러닝+딥러닝] 1강. 인공지능, 머신러닝 그리고 딥러닝이란 무엇인가? - YouTube 1강은 인공지능의 발전사를 ..

EDA - 3단계 : 캐글 스터디(with TAVE 12기)

스터디 9월 16일 토요일부터 TAVE 12기 과정을 통해 10월 30일 정도까지 매주 토요일에 스터디를 2시간씩 진행할 예정이다. ​ 데이터 분석 분야의 스터디는 머신러닝과 캐글, 데이터 분석 기초로 총 3개로 분류되었고, 그중에서 Level 1과 2로 또 나뉘게 된다. 머신러닝과 캐글 둘 중에서 고민을 하였고, 캐글로 선택하였다. 전반기는 스터디를 진행하고, 후반기에는 프로젝트 혹은 공모전 등을 참여할 예정에 있다. ​ 아직 스터디 경험이나 프로젝트 경험이 적기 때문에 어려운 과정을 하기 보다는 어떻게 진행되는지 그 과정을 중심으로 배우려고 한다. 스터디 진행 위의 책을 기반으로 하고, 추가로 인프런이나 유튜브 강의 영상 등을 참조하여 스터디를 진행하기로 했다. ​ 현재 대강 7주차까지의 주차별 계획..

[알고리즘] 백준 25192 파이썬 - 인사성 밝은 곰곰이

25192번: 인사성 밝은 곰곰이 첫번째 새로운 사람이 들어온 뒤 pjshwa, chansol, chogahui05은 모두 곰곰티콘으로 인사했다. 두번째 새로운 사람이 들어온 뒤 pjshwa와 chansol은 다시 곰곰티콘으로 인사했다. www.acmicpc.net 문제 알고리즘 입문방 오픈 채팅방에서는 새로운 분들이 입장을 할 때마다 곰곰티콘을 사용해 인사를 한다. 이를 본 문자열 킬러 임스는 채팅방의 기록을 수집해 그 중 곰곰티콘이 사용된 횟수를 구해 보기로 했다. ENTER는 새로운 사람이 채팅방에 입장했음을 나타낸다. 그 외는 채팅을 입력한 유저의 닉네임을 나타낸다. 닉네임은 숫자 또는 영문 대소문자로 구성되어 있다. 새로운 사람이 입장한 이후 처음 채팅을 입력하는 사람은 반드시 곰곰티콘으로 인사..

[알고리즘] 백준 2776 파이썬 - 암기왕

2776번: 암기왕 연종이는 엄청난 기억력을 가지고 있다. 그래서 하루 동안 본 정수들을 모두 기억 할 수 있다. 하지만 이를 믿을 수 없는 동규는 그의 기억력을 시험해 보기로 한다. 동규는 연종을 따라 다니며, www.acmicpc.net 문제 연종이는 엄청난 기억력을 가지고 있다. 그래서 하루 동안 본 정수들을 모두 기억 할 수 있다. 하지만 이를 믿을 수 없는 동규는 그의 기억력을 시험해 보기로 한다. 동규는 연종을 따라 다니며, 연종이 하루 동안 본 정수들을 모두 ‘수첩1’에 적어 놓았다. 그것을 바탕으로 그가 진짜 암기왕인지 알아보기 위해, 동규는 연종에게 M개의 질문을 던졌다. 질문의 내용은 “X라는 정수를 오늘 본 적이 있는가?” 이다. 연종은 막힘없이 모두 대답을 했고, 동규는 연종이 봤다..

EDA - 2단계 : 실제 데이터 다루기 (5)

- 출처 빅데이터 연합 동아리 BITAmin : 네이버 카페 빅데이터 연합 동아리 비타민입니다. cafe.naver.com 6기 멤버 코테 내용이다. 주피터 노트북을 환경으로 했다. - 문제1 a = 10 b = (1.44,'bitamin') c = "비타민" d = [1, 2, 3, 4, 5] e = {'특별시':'천안','충남':'서울','인천':'광역시'} a, b, c, d, e의 데이터에 대한 타입(type)을 출력하시오. 그리고 주석을 이용해 그 타입에 대한 설명을 간략히 하시오. ​ 풀이 : print(type(a)) print(type(b)) print(type(c)) print(type(d)) print(type(e)) - 문제2 score = [90,25,67,45,80] score는 ..

EDA - 2단계 : 실제 데이터 다루기 (4)

- 출처 빅데이터 연합 동아리 BITAmin : 네이버 카페 빅데이터 연합 동아리 비타민입니다. cafe.naver.com 11기 멤버 코테 내용이다. 주피터 노트북을 환경으로 했다. - 문제1 문제 1 - 20점 ​ 문제 [1-1] - 3점 ​ 2023년 1월 29일, 자신의 이름, MBTI, 핸드폰 번호 뒷자리를 리스트로 저장하고 그것을 Series의 형태로 변환하여 출력하세요 list=['2023-01-29','홍길동','ESFP',0123] pd.Series(list) 문제 [1-2] - 3점 ​ 딕셔너리를 사용하여 다음의 DataFrame 모양을 만들어 출력하세요.(DataFrame은 df로 저장해주세요) data={'사람1':[95,100,90,80],'사람2':[85,85,90,100],'사..

EDA - 2단계 : 실제 데이터 다루기 (3)

- 출처 빅데이터 연합 동아리 BITAmin : 네이버 카페 빅데이터 연합 동아리 비타민입니다. cafe.naver.com 10기 멤버 코테 내용이다. 주피터 노트북을 환경으로 했다. - 문제1 1. midwest.csv를 불러와 midwest에 저장하고, 위에서부터 10행까지 출력하시오. midwest=pd.read_csv("midwest.csv") midwest.head(10) 2. popwhite는 해당 지역의 아시아인 인구, poptotal은 해당 지역의 전체 인구를 나타냅니다. midwest 데이터에 '전체 인구 대비 아시아인 인구 백분율' 변수인 percent 열을 추가하세요. midwest['percent']=(midwest['popwhite'])/midwest['poptotal']*100 ..

EDA - 2단계 : 실제 데이터 다루기 (2)

- 출처 빅데이터 연합 동아리 BITAmin : 네이버 카페 빅데이터 연합 동아리 비타민입니다. cafe.naver.com 멤버 9기 코딩 테스트 문제입니다. 환경은 주피터 노트북입니다. - 문제1 1번 tips 에서 day 열값 분포를 구하세요. 수치형 데이터의 요약 (평균, 사분위 수 등)을 구하시오. tips['day'].value_counts() tips.describe() 2번 sex 별 tip 의 최댓값을 구하세요. Hint: loc[ ] male=tips['sex']=="Male" female=tips['sex']=="Female" max_male=tips['tip'].loc['male'].max() max_female=tips['tip'].loc['female'].max() 3번 total..