IT지식/빅데이터 26

토이프로젝트 - (1) 데이터 수집 (코스피 크롤링)

- 기본 배경 데이터분석 - 토이프로젝트 계획(주가 지수의 관계) 사전 정보 - 일정 : 4월 초 ~ 6월초까지 약 2개월 - 사용언어 : python - 분석 이유 : 평소 미국 증시와 한... blog.naver.com 중간고사 기간은 끝났지만 아직 다음주에 시험이 1개 남아있다. 그래도 최근에 하루 1시간 정도 계획했던 토이프로젝트를 진행하는데 사용하고 있다. 현재 1단계인 "데이터 수집"을 python의 BeautifulSoup을 이용하여 진행 중이다. 사실 네이버에서 코스피, 나스닥, S&P500 등의 지수들을 추출하여 데이터프레임 형태로 형식에 맞게 저장하려고 하였다. 하지만 문제가 발생하여 조금 더 시간이 걸릴 것 같다. 문제는 아래에서 설명하겠다. - 네이버 코스피 크롤링 from bs4 ..

데이터분석 - 토이프로젝트 계획(주가 지수의 관계)

출처 : 주요 주가 지수 - Investing.com - 사전 정보 - 일정 : 4월 초 ~ 6월초까지 약 2개월 - 사용언어 : python - 분석 이유 : 평소 미국 증시와 한국 증시의 상관성이 궁금하였기 때문이다. 출처 : 빅데이터 분석기사 필기 - 빅데이터 분석 기획 #2 (tistory.com) - 분석 기획 1. 평소 미국 경제는 한국뿐만 아니라 전세계적으로 영향력이 큰 편이다. 그렇기에 우리나라 코스피 지수와 나스닥, s&p500 등의 관계를 알아보려고 한다. 2. 간단한 토이프로젝트를 목표로 진행하려고 하기에, 주가 지수의 관계를 살펴보고 크게 인사이트를 얻기 어려운 상황 등이 발생하면 모델링까지는 진행하지 않으려 한다. 3. 주가와 관련되었기에 회귀나 분류의 주제가 적합할 것 같다. -..

[정보] 빅데이터 자격증 - 종류 및 설명 (with 유효기간)

1. 자격증 주의사항 - 자격증이 있다고 무조건 취업이 되는 것이 아니다. 단순히 이력서에 한 줄이 늘어난다고 보면 편하다. 빅데이터 분야를 포함한 IT분야는 실전 경험을 크게 본다. 그렇기에 자격증 vs 프로젝트 or 인턴의 경험이라면 차라리 프로젝트나 인턴 경험을 하는 것이 더욱 좋다. 더불어 취업하려는 회사의 작업 환경은 이미 정해져있는 경우가 대부분이기에, 해당 환경에 익숙하다면 큰 이점이 될 수 있다. 2. 빅데이터 자격증 종류 - 빅데이터분석기사 - ADsp, ADP - DAsp, DAP - SQLD, SQLP - GAIQ 3. 빅데이터 자격증 설명 - 빅데이터분석기사 데이터자격시험 대용량의 데이터 집합으로부터 유용한 정보를 찾고 결과를 예측하기 위해 목적에 따라 분석기술과 방법론을 기반으로 ..

[취업정보] 빅데이터 취업 가이드 - 직무 정하기, 취업 준비 등

1. 빅데이터 직무 정하기 - 빅데이터 취업 시장에 참여하려면 빅데이터 분야를 정해야 한다. 그렇기 위해서는 자신의 성향과 장점, 배경 등을 통해 적합한 분야를 찾아야 한다. 예시로 데이터와 관련된 전체적인 시스템 구조를 설계하는 것을 좋아하면 '데이터 엔지니어', 데이터를 사용한 스토리텔링을 좋아하면 '데이터 애널리스트', 숫자에 강한 특성이 있다면 '데이터 사이언티스트', 연구하고 이해하는 게 좋다면 '데이터 리서처' 등으로 선택하는 방법이 있다. 2. 산업 도메인 정하기 빅데이터 프로젝트에서는 기술적인 지식과 더불어 관련 데이터에 대한 도메인 지식도 필요하다. 도메인 지식은 분석할 데이터 재료에 대한 이해로, 빅데이터 프로젝트에서 중요하다. 도메인 지식이 부족하여 일어나는 대표적인 문제는 상관관계와..

[빅데이터] 데이터 파이프라인과 클라우드(AWS, 애저)

1. 데이터 파이프라인이란? - 데이터 파이프라인은 '데이터가 지나가는 길'을 뜻한다. 물론 데이터가 지나가는 모든 길을 그렇게 부르지는 않는다. 데이터 파이프라인은 데이터의 이동이 어느 정도 체계화, 자동화된 것으로 수집, 가공, 처리, 저장 등이 함께 일어난다. 예시로 인터넷 쇼핑몰에서 구매가 발생하면 구매 기록 데이터가 생성-수집된 후 일련의 처리 과정을 거쳐 데이터 웨어하우스에 저장되는데, 이를 '데이터 웨어하우스'까지 이동한 경로를 데이터 파이프라인이라고 한다. + ETL 추출, 가공, 적재를 뜻하는 ETL은 다양한 데이터 파이프라인 중 하나이다. ETL도 데이터가 흐르는 길로 데이터 추출에서 시작해 가공, 저장으로 이어지는 경우를 특정해 이야기하는 것이다. 또한 실무에서는 ETL을 주기적으로 ..

빅데이터 전문가는 수학 및 통계학을 알아야 할까?

1. 각 직종별 수학 및 통계학이 필요한 이유 - 데이터 애널리스트는 기성 소프트웨어를 사용하기에 새로운 모델을 개발하는 경우는 흔하지 않다. 따라서 데이터 애널리스트는 기성 소프트웨어가 내장하고 있는 데이터 분석 알고리즘을 공부하고, 내부 기작을 이해하는데 시간을 더 할애해야 한다. 반면 통계학은 공부한 만큼 데이터 애널리스트에게 도움이 된다. 데이터를 활용해 조직의 현재 상황을 진단하는 역할을 맡을 때를 보면, 통계 모델링과 결과 분석 방법, 가설 검정 등의 내용을 바탕으로 경영진에게 자신의 의견을 피력할 수 있는 적극적인 데이터 애널리스트가 되기 위해서 통게학 공부가 필요하다. - 데이터 사이언티스트나 데이터 리서처는 수학, 통계학, 정보 이론의 내용을 숙지하고 있어야 한다. 논문을 이해하거나 논문..

[IT지식] 빅데이터 직종에서 가장 많이 사용되는 언어는?

1. 각 직종별 프로그래밍 중요도 - 데이터 사이언티스트와 데이터 리서처에게는 코딩 기술 없이는 일의 진행이 불가능할 정도이다. 연구 결과, 모델 이해, 모델 시험 및 발표 등 모두 코드를 쓸 줄 모르면 실험을 시작할 수도 없다. - 상황에 따라 데이터 기획자에게 POC(신기술 도입 전 성공 가능성 실험해보는 것)를 요구할 수도 있다. 이에 프로그래밍 기술을 보유하면 기획 단계에서 더욱 선명한 방향을 제시하고 프로젝트를 성공으로 이끌 수 있다. - 데이터 엔지니어는 프로그래밍을 다른 직종에 비해 제일 잘해야 한다. 데이터 엔지니어의 코드와 소프트웨어가 서비스를 지탱하기 때문이다. 데이터의 효율적인 이동과 저장을 위해 자료구조와 알고리즘에도 익숙해야 한다. 2. 데이터 전문가와 프로그래밍 언어 위 지표와 ..

[빅데이터] 웹 크롤링과 웹 크롤러

1. 웹 크롤링 기법 1. HTTP와 HTML을 활용하는 방법 HTTP 통신을 이용해 원하는 웹 페이지의 HTML 소스 코드를 다운로드한 후 이를 적절히 파싱하여 필요한 데이터를 추출하는 것이다. 2. 원하는 데이터가 있는 웹 페이지의 URL 주소를 알기 어려울 때 웹 브라우저를 이용해 사람이 직접 데이터를 받는 모습을 따라하는 프로그램을 만들어 원하는 데이터를 다운로드하는 것이다. 3. 데이터를 다운로드할 수 있도록 만들어진 API를 활용한다. 2. 웹 크롤러 웹 크롤링이나 웹 스크래핑을 수행하는 프로그램을 말한다. 프로그래밍 언어로 크롤러를 구현하는 경우 파이썬을 예시로 들면, 'requests'와 'BeautifulSoup' 패키지를 사용하여, HTML의 소스 코드를 다운로드한 후 파싱해 웹 페이지..

[빅데이터] 데이터 분석 소프트웨어의 장점과 단점

1. 데이터 분석 소프트웨어란? - 데이터 수집, 처리, 분석, 시각화, 결과 배포까지 데이터 분석의 모든 과정을 코딩 없이 수행할 수 있게 해주는 소프트웨어를 말한다. 즉 노드라는 점을 이용해 키보드로 하는 코딩을 마우스 클릭이나 드래그 앤 드롭으로 대신한다. 2. 데이터 분석 소프트웨어의 장 단점 - 장점 : 분석 목표나 방식이 어느 정도 정해져 있고, 분석 난이도가 높지 않을 때, 반복적으로 수행될 때, 짧은 시간 내에 결과를 도출하고 공유할 때 효율적으로 수행할 수 있다. - 단점 : 자유성이 떨어지고, 고난도의 데이터 분석을 수행하는 데 한계가 있다. 3. 데이터 분석 소프트웨어 종류 - KNIME, RapidMiner, Orange, SAS 등이 있다. 각각의 사용 편의성, 데이터 분석을 위한..

데이터 시각화 - 유형 및 특징(그래프, 히스토그램, 대시보드 등)

1. 데이터 시각화란? 말 그대로 데이터를 눈으로 볼 수 있게 여러 형태로 표현하는 것을 말한다. 즉 데이터 수치에서는 찾을 수 없던 새로운 인사이트를 얻을 수도 있으며, 데이터를 보는 사용자나, 필요한 분석에 따라 사용하는 유형이 달라진다. 2. 데이터 시각화의 유형 1. 그래프 그래프는 가장 대표적인 시각화 방법으로, 그래프 중에서도 '꺾은선그래프'를 가장 많이 사용한다. 주로 시간에 따른 데이터의 변화나 경향성을 강조하고 싶을 때 사용하는 시각화 방법으로, 데이터를 꺾은선그래프로 표현하기 위해서는 가로축에 '시간', 세로 축에 설명하려는 값을 정리해야 한다. 여러 종류를 표현하기 위해서는 다양한 색상으로 표시한다. 2. 히스토그램 히스토그램도 그래프를 활용한 시각화 방법에서 많이 사용하는 유형 중 ..