IT지식 56

토이프로젝트 - (1) 데이터 수집 (코스피 크롤링)

- 기본 배경 데이터분석 - 토이프로젝트 계획(주가 지수의 관계) 사전 정보 - 일정 : 4월 초 ~ 6월초까지 약 2개월 - 사용언어 : python - 분석 이유 : 평소 미국 증시와 한... blog.naver.com 중간고사 기간은 끝났지만 아직 다음주에 시험이 1개 남아있다. 그래도 최근에 하루 1시간 정도 계획했던 토이프로젝트를 진행하는데 사용하고 있다. 현재 1단계인 "데이터 수집"을 python의 BeautifulSoup을 이용하여 진행 중이다. 사실 네이버에서 코스피, 나스닥, S&P500 등의 지수들을 추출하여 데이터프레임 형태로 형식에 맞게 저장하려고 하였다. 하지만 문제가 발생하여 조금 더 시간이 걸릴 것 같다. 문제는 아래에서 설명하겠다. - 네이버 코스피 크롤링 from bs4 ..

SQLD - 48회 SQL 개발자 합격 후기

- 준비과정 기간 : 3월 3일 ~ 19일 사전 지식 : 노베이스 ​ ADSP를 2월 말에 본 후 바로 접수하였지만 실질적으로 준비한 기간은 약 2주 정도이다. 그것도 대학 학기중이다 보니, 시간이 많지 않아 평균적으로 하루 1~2시간정도 공부한 것 같다. 총 학습시간은 약 30시간정도 되는 듯 하다. 해당 영상을 보고 자격증을 준비하였다. 우선 해당 영상에서 나오는 SQLD 개념 요약본으로 약 이틀 정도 학습 후 유튜브 개념 영상을 이틀 정도 보며, 총 처음 4일 정도는 기초 개념을 잡는데 투자하였다. ​ 이후 3일에 걸쳐 노랭이 책의 SQLD 부분을 다 풀었다. 확실히 노랭이 책은 개념 설명이 없고 문제만 있기에 문제를 이해하도 푸는 것 자체가 굉장히 어렵다. 그렇기에 무조건 개념을 잡은 상태로 문제..

IT지식/나머지 2023.04.07

데이터분석 - 토이프로젝트 계획(주가 지수의 관계)

출처 : 주요 주가 지수 - Investing.com - 사전 정보 - 일정 : 4월 초 ~ 6월초까지 약 2개월 - 사용언어 : python - 분석 이유 : 평소 미국 증시와 한국 증시의 상관성이 궁금하였기 때문이다. 출처 : 빅데이터 분석기사 필기 - 빅데이터 분석 기획 #2 (tistory.com) - 분석 기획 1. 평소 미국 경제는 한국뿐만 아니라 전세계적으로 영향력이 큰 편이다. 그렇기에 우리나라 코스피 지수와 나스닥, s&p500 등의 관계를 알아보려고 한다. 2. 간단한 토이프로젝트를 목표로 진행하려고 하기에, 주가 지수의 관계를 살펴보고 크게 인사이트를 얻기 어려운 상황 등이 발생하면 모델링까지는 진행하지 않으려 한다. 3. 주가와 관련되었기에 회귀나 분류의 주제가 적합할 것 같다. -..

ADsP 36회 시험 후기 및 준비 과정 (데이터분석 준전문가)

사전 자료 - 빅데이터 관련 자격증 설명 [정보] 빅데이터 자격증 - 종류 및 설명 (with 유효기간) 1. 자격증 주의사항 - 자격증이 있다고 무조건 취업이 되는 것이 아니다. 단순히 이력서에 한 줄이 늘어난다고 보면 편하다. 빅데이터 분야를 포함한 IT분야는 실전 경험을 크게 본다. 그렇기에 maeseok.tistory.com 사전 자료 - ADsP 관련 내용 2023 ADsP 데이터 분석 준전문가 - 예약판매, 예약대기 1. 2023 ADsP 일정 2023년 연초 자격증 계획 (with ADsP, SQLD) 시작에 앞서 대학 전과 준비를 반 년 넘게 했지만, 갑작스럽게 현재 학과에서 비슷한 학과로 전과하는 것을... blog.naver.com 2. 2023 ADsP 데이터 maeseok.tisto..

IT지식/나머지 2023.02.27

[정보] 위키독스 - 무료 e-book 사이트 (with 프로그래밍 독학)

1. 위키독스 - 최근에 알게 된 사이트이다. 구글 서칭을 통해 자연스럽게 유입하게 되었다. 아래 링크를 통해 접속할 수 있다. 많은 질 좋은 책들을 무료로 볼 수 있다. 위키독스 온라인 책을 제작 공유하는 플랫폼 서비스 wikidocs.net 2. 위키독스의 형태 - 이런 식으로 수 많은 책들이 무료로 공개된다. 물론 유료로 구매해야지만 이용 가능한 책들도 있고 부분적으로 공개된 책들도 있다. - 예시로 "점프 투 파이썬"이라는 책의 경우는 연습문제, 종합문제를 제외한 모든 챕터를 무료로 공개하고 있다. 나머지의 내용은 e-book을 구매하여야 볼 수 있다. 3. 위키독스는 어떻게 유지가 되는가? - 당연하게도 저자가 전자책을 등록 후 발생하는 수입의 80%는 저자가, 나머지 20%는 위키독스에게 배분..

IT지식/나머지 2022.12.09

[정보] 빅데이터 자격증 - 종류 및 설명 (with 유효기간)

1. 자격증 주의사항 - 자격증이 있다고 무조건 취업이 되는 것이 아니다. 단순히 이력서에 한 줄이 늘어난다고 보면 편하다. 빅데이터 분야를 포함한 IT분야는 실전 경험을 크게 본다. 그렇기에 자격증 vs 프로젝트 or 인턴의 경험이라면 차라리 프로젝트나 인턴 경험을 하는 것이 더욱 좋다. 더불어 취업하려는 회사의 작업 환경은 이미 정해져있는 경우가 대부분이기에, 해당 환경에 익숙하다면 큰 이점이 될 수 있다. 2. 빅데이터 자격증 종류 - 빅데이터분석기사 - ADsp, ADP - DAsp, DAP - SQLD, SQLP - GAIQ 3. 빅데이터 자격증 설명 - 빅데이터분석기사 데이터자격시험 대용량의 데이터 집합으로부터 유용한 정보를 찾고 결과를 예측하기 위해 목적에 따라 분석기술과 방법론을 기반으로 ..

[취업정보] 빅데이터 취업 가이드 - 직무 정하기, 취업 준비 등

1. 빅데이터 직무 정하기 - 빅데이터 취업 시장에 참여하려면 빅데이터 분야를 정해야 한다. 그렇기 위해서는 자신의 성향과 장점, 배경 등을 통해 적합한 분야를 찾아야 한다. 예시로 데이터와 관련된 전체적인 시스템 구조를 설계하는 것을 좋아하면 '데이터 엔지니어', 데이터를 사용한 스토리텔링을 좋아하면 '데이터 애널리스트', 숫자에 강한 특성이 있다면 '데이터 사이언티스트', 연구하고 이해하는 게 좋다면 '데이터 리서처' 등으로 선택하는 방법이 있다. 2. 산업 도메인 정하기 빅데이터 프로젝트에서는 기술적인 지식과 더불어 관련 데이터에 대한 도메인 지식도 필요하다. 도메인 지식은 분석할 데이터 재료에 대한 이해로, 빅데이터 프로젝트에서 중요하다. 도메인 지식이 부족하여 일어나는 대표적인 문제는 상관관계와..

[빅데이터] 데이터 파이프라인과 클라우드(AWS, 애저)

1. 데이터 파이프라인이란? - 데이터 파이프라인은 '데이터가 지나가는 길'을 뜻한다. 물론 데이터가 지나가는 모든 길을 그렇게 부르지는 않는다. 데이터 파이프라인은 데이터의 이동이 어느 정도 체계화, 자동화된 것으로 수집, 가공, 처리, 저장 등이 함께 일어난다. 예시로 인터넷 쇼핑몰에서 구매가 발생하면 구매 기록 데이터가 생성-수집된 후 일련의 처리 과정을 거쳐 데이터 웨어하우스에 저장되는데, 이를 '데이터 웨어하우스'까지 이동한 경로를 데이터 파이프라인이라고 한다. + ETL 추출, 가공, 적재를 뜻하는 ETL은 다양한 데이터 파이프라인 중 하나이다. ETL도 데이터가 흐르는 길로 데이터 추출에서 시작해 가공, 저장으로 이어지는 경우를 특정해 이야기하는 것이다. 또한 실무에서는 ETL을 주기적으로 ..

[인공지능] 강화학습 기법 - 종류와 해당 알고리즘 정리

1. 강화학습 기법이란? - 강화학습 기법은 환경과 상호작용해 얻은 정보를 바탕으로 에이전트의 모델을 업데이트하고, 그 모델을 사용해 에이전트의 정책을 개선하는 것이다. 이후 에이전트는 개선한 정책을 사용하거나 다른 정책을 사용해 환경과 상호작용한다. 환경에서 행동을 취하면 '현재 상태', '행동', '다음 상태'의 상태 전이 정보와 '보상'을 데이터로 얻는다. 그다음은 얻은 데이터를 기반으로 에이전트 내의 모델을 업데이트 한다. 이 모델은 모델기반 강화학습에서 환경의 작동 원리가 될 것이고, 모델프리 강화학습에서는 가치함수나 몬테카를로 방식으로 얻은 보상의 합이 될 것이다. 이렇게 얻은 정보를 처리해 모델을 업데이트한 후 모델을 사용해 정책을 개선한다. 끝으로 개선한 정책 또는 다른 정책을 사용해 환경..

[인공지능] 강화학습 프로세스 - 4단계로 정리하기

1. 강화학습 프로세스의 단계 1. 문제 파악하기 2. 강화학습 문제로 정의하기 3. 강화학습 기법 선택 및 에이전트 학습하기 4. 강화학습 에이전트 성능 평가 및 배포하기 2. 문제 파악하기 - 강화학습 프로젝트에서 필수적이고 중요한 단계이다. 일반적으로 '제어 또는 행동을 찾는 문제인가?', '최적의 행동이 무엇인지 정의할 수 있는 평가 지표가 있는가?'라는 두 질문에 '그렇다'라면 강화학습을 시도해 볼 만한 문제라고 간주한다. 강화학습 기법은 문제를 주로 마르코프 결정 과정으로 정의한다. 마르코프 결정 과정은 '가장 중요한 성질은 새로운 상태가 현재 상태와 행동에만 의존한다'는 것이다. 이전 상태와 이전 행동은 독립적이어야만 마르코프 결정 과정이라 할 수 있다. 또한 마르코프 결정 과정에는 상태와 ..