빅데이터 13

[취업정보] 빅데이터 취업 가이드 - 직무 정하기, 취업 준비 등

1. 빅데이터 직무 정하기 - 빅데이터 취업 시장에 참여하려면 빅데이터 분야를 정해야 한다. 그렇기 위해서는 자신의 성향과 장점, 배경 등을 통해 적합한 분야를 찾아야 한다. 예시로 데이터와 관련된 전체적인 시스템 구조를 설계하는 것을 좋아하면 '데이터 엔지니어', 데이터를 사용한 스토리텔링을 좋아하면 '데이터 애널리스트', 숫자에 강한 특성이 있다면 '데이터 사이언티스트', 연구하고 이해하는 게 좋다면 '데이터 리서처' 등으로 선택하는 방법이 있다. 2. 산업 도메인 정하기 빅데이터 프로젝트에서는 기술적인 지식과 더불어 관련 데이터에 대한 도메인 지식도 필요하다. 도메인 지식은 분석할 데이터 재료에 대한 이해로, 빅데이터 프로젝트에서 중요하다. 도메인 지식이 부족하여 일어나는 대표적인 문제는 상관관계와..

빅데이터와 머신러닝 (지도학습, 비지도학습, 강화학습)

1. 빅데이터 직종별 머신러닝의 중요도 1. 데이터 사이언티스트, 데이터 리서처 - 모델을 만드는 것이 주업무인 데이터 사이언티스트와 리서처는 머신러닝 모델을 만들고 발전시키는 데 많은 시간을 할애한다. 따라서 머신러닝 기법과 모델 구축 알고리즘에 대한 지식은 필수다. 또한 머신러닝 프로세스 지식도 갖추고 있어야 한다. 해당 지식이 없으면 좋은 모델을 만들기 어렵고, 새로운 알고리즘을 구성해 실제로 구현할 수 있는 프로그래밍 실력을 갖췄더라도 모델 구축을 둘러싼 전반적인 흐름과 논리를 이해하거나 전개하지 못하게 된다. 2. 데이터 애널리스트 - 데이터 애널리스트는 주로 애널리틱스 도구나 머신러닝 패키지에 내장된 몇 개의 기법 중 하나를 선택해 모델을 만들게 된다. 따라서 모델을 만드는 알고리즘의 내부 작..

빅데이터 전문가는 수학 및 통계학을 알아야 할까?

1. 각 직종별 수학 및 통계학이 필요한 이유 - 데이터 애널리스트는 기성 소프트웨어를 사용하기에 새로운 모델을 개발하는 경우는 흔하지 않다. 따라서 데이터 애널리스트는 기성 소프트웨어가 내장하고 있는 데이터 분석 알고리즘을 공부하고, 내부 기작을 이해하는데 시간을 더 할애해야 한다. 반면 통계학은 공부한 만큼 데이터 애널리스트에게 도움이 된다. 데이터를 활용해 조직의 현재 상황을 진단하는 역할을 맡을 때를 보면, 통계 모델링과 결과 분석 방법, 가설 검정 등의 내용을 바탕으로 경영진에게 자신의 의견을 피력할 수 있는 적극적인 데이터 애널리스트가 되기 위해서 통게학 공부가 필요하다. - 데이터 사이언티스트나 데이터 리서처는 수학, 통계학, 정보 이론의 내용을 숙지하고 있어야 한다. 논문을 이해하거나 논문..

[IT지식] 빅데이터 직종에서 가장 많이 사용되는 언어는?

1. 각 직종별 프로그래밍 중요도 - 데이터 사이언티스트와 데이터 리서처에게는 코딩 기술 없이는 일의 진행이 불가능할 정도이다. 연구 결과, 모델 이해, 모델 시험 및 발표 등 모두 코드를 쓸 줄 모르면 실험을 시작할 수도 없다. - 상황에 따라 데이터 기획자에게 POC(신기술 도입 전 성공 가능성 실험해보는 것)를 요구할 수도 있다. 이에 프로그래밍 기술을 보유하면 기획 단계에서 더욱 선명한 방향을 제시하고 프로젝트를 성공으로 이끌 수 있다. - 데이터 엔지니어는 프로그래밍을 다른 직종에 비해 제일 잘해야 한다. 데이터 엔지니어의 코드와 소프트웨어가 서비스를 지탱하기 때문이다. 데이터의 효율적인 이동과 저장을 위해 자료구조와 알고리즘에도 익숙해야 한다. 2. 데이터 전문가와 프로그래밍 언어 위 지표와 ..

[빅데이터] 웹 크롤링과 웹 크롤러

1. 웹 크롤링 기법 1. HTTP와 HTML을 활용하는 방법 HTTP 통신을 이용해 원하는 웹 페이지의 HTML 소스 코드를 다운로드한 후 이를 적절히 파싱하여 필요한 데이터를 추출하는 것이다. 2. 원하는 데이터가 있는 웹 페이지의 URL 주소를 알기 어려울 때 웹 브라우저를 이용해 사람이 직접 데이터를 받는 모습을 따라하는 프로그램을 만들어 원하는 데이터를 다운로드하는 것이다. 3. 데이터를 다운로드할 수 있도록 만들어진 API를 활용한다. 2. 웹 크롤러 웹 크롤링이나 웹 스크래핑을 수행하는 프로그램을 말한다. 프로그래밍 언어로 크롤러를 구현하는 경우 파이썬을 예시로 들면, 'requests'와 'BeautifulSoup' 패키지를 사용하여, HTML의 소스 코드를 다운로드한 후 파싱해 웹 페이지..

[빅데이터] 데이터 분석 소프트웨어의 장점과 단점

1. 데이터 분석 소프트웨어란? - 데이터 수집, 처리, 분석, 시각화, 결과 배포까지 데이터 분석의 모든 과정을 코딩 없이 수행할 수 있게 해주는 소프트웨어를 말한다. 즉 노드라는 점을 이용해 키보드로 하는 코딩을 마우스 클릭이나 드래그 앤 드롭으로 대신한다. 2. 데이터 분석 소프트웨어의 장 단점 - 장점 : 분석 목표나 방식이 어느 정도 정해져 있고, 분석 난이도가 높지 않을 때, 반복적으로 수행될 때, 짧은 시간 내에 결과를 도출하고 공유할 때 효율적으로 수행할 수 있다. - 단점 : 자유성이 떨어지고, 고난도의 데이터 분석을 수행하는 데 한계가 있다. 3. 데이터 분석 소프트웨어 종류 - KNIME, RapidMiner, Orange, SAS 등이 있다. 각각의 사용 편의성, 데이터 분석을 위한..

데이터 시각화 - 유형 및 특징(그래프, 히스토그램, 대시보드 등)

1. 데이터 시각화란? 말 그대로 데이터를 눈으로 볼 수 있게 여러 형태로 표현하는 것을 말한다. 즉 데이터 수치에서는 찾을 수 없던 새로운 인사이트를 얻을 수도 있으며, 데이터를 보는 사용자나, 필요한 분석에 따라 사용하는 유형이 달라진다. 2. 데이터 시각화의 유형 1. 그래프 그래프는 가장 대표적인 시각화 방법으로, 그래프 중에서도 '꺾은선그래프'를 가장 많이 사용한다. 주로 시간에 따른 데이터의 변화나 경향성을 강조하고 싶을 때 사용하는 시각화 방법으로, 데이터를 꺾은선그래프로 표현하기 위해서는 가로축에 '시간', 세로 축에 설명하려는 값을 정리해야 한다. 여러 종류를 표현하기 위해서는 다양한 색상으로 표시한다. 2. 히스토그램 히스토그램도 그래프를 활용한 시각화 방법에서 많이 사용하는 유형 중 ..

데이터 기획자 - 업무, 필요 능력, 전망 한번에 정리

1. 데이터 기획자란? - 빅데이터 비즈니스 사이클의 계획과 원활한 운영을 책임지는 사람이다. 목표를 설계하고, 그 목표를 실행하기 위한 데이터, 시스템, 인력을 효율적으로 운영해야 한다. 그리고 간단한 시각화나 분석을 통해 프로젝트의 방향을 정하고, 데이터 기술의 동향을 파악해 적절한 기술이 프로젝트에 적용되고 있는지는 살펴야 한다. 2. 데이터 기획자의 업무 - 빅데이터 프로젝트를 이끄는 사람으로, 요구사항을 제시하는 클라이언트와 소통하는 역할을 합니다. 클라이언트의 이해도에 맞게 요구사항을 빅데이터 전문 영역의 언어로 다시 구체화해서 최종적으로 서로 합의하여 요구사항을 설정 후 프로젝트를 시작한다. 프로젝트를 위해서는 인적 자원, 전산 자원, 프로젝트 가용 예산 등 사용할 수 있는 빅데이터 자원을 ..

데이터 리서처 - 업무, 필요 능력 한번에 정리

1. 데이터 리서처란? - 데이터를 분석하기 위한 새로운 알고리즘과 방법론을 연구, 개발하는 일을 담당한다. (연구+논문) 2. 데이터 리서처의 업무 1. 데이터 분석 관련 알고리즘 개발 데이터 리서처의 연구 성과는 논문과 학회에서 활발하게 발표된다. 개발한 알고리즘이 곧바로 실무에 적용되는 경우도 있지만, 당장 적용되지 않더라도 미래에 중요한 가치를 창출할 수 있다. 데이터 분석 알고리즘은 '데이터를 좀 더 효율적으로 다루거나 더 높은 예측 성능을 내기 위한 여러 동작의 모임'을 말한다. 2. 최신 연구 공부 및 알고리즘 구현 기업의 연구 인력으로서 최신 알고리즘의 트렌드를 공부하고 구현하는 것이다. 학계와 현장에서 중요하게 생각하는 성능 지표나 사용한 데이터가 다른 경우, 성능은 뛰어나지만 처리 속도..

데이터 사이언티스트 - 업무, 필요 능력, 취업 팁 한번에 정리

1. 데이터 사이언티스트란? - 통계 방법론, 머신러닝 그리고 데이터 마이닝 지식을 바탕으로 정량적이고 과학적인 데이터 분석을 통해 데이터에서 인사이트를 발굴하는 일을 담당한다. 그리고 보다 깊이 있는 분석 기법을 적용함으로써 현재 상황을 묘사하고 분석할 뿐 아니라 미래 상황을 예측하거나 미래에 발생할 수 있는 문제를 예방하기도 한다. (새로운 알고리즘을 습득할 수 있는 이론적인 이해도와 더불어 분석하고자 하는 업종 전반에 대한 지식, 가치 창출, 인사이트 발굴 능력 등을 골고루 갖춰야 한다.) 2. 데이터 사이언티스트의 업무 비즈니스 문제 -> 데이터 분석 문제 -> 분석할 데이터 -> 인사이트 포뮬레이션 전처리/EDA 모델링/검증 1. 포뮬레이션은 해결하고자 하는 비즈니스 문제를 데이터 분석 문제로 ..