IT지식/빅데이터

데이터 사이언티스트 - 업무, 필요 능력, 취업 팁 한번에 정리

매 석 2022. 10. 13. 23:25
반응형

 

1. 데이터 사이언티스트란?

- 통계 방법론, 머신러닝 그리고 데이터 마이닝 지식을 바탕으로 정량적이고 과학적인 데이터 분석을 통해
  데이터에서 인사이트를 발굴하는 일을 담당한다. 그리고 보다 깊이 있는 분석 기법을 적용함으로써 
  현재 상황을 묘사하고 분석할 뿐 아니라 미래 상황을 예측하거나 미래에 발생할 수 있는 문제를 예방하기도 한다.
  (새로운 알고리즘을 습득할 수 있는 이론적인 이해도와 더불어 분석하고자 하는 업종 전반에 대한 지식, 가치 창출,
   인사이트 발굴 능력 등을 골고루 갖춰야 한다.)

 

2. 데이터 사이언티스트의 업무

비즈니스 문제      ->        데이터 분석 문제      ->         분석할 데이터          ->        인사이트
                      포뮬레이션                          전처리/EDA                         모델링/검증

 

1. 포뮬레이션은 해결하고자 하는 비즈니스 문제를 데이터 분석 문제로 바꾸는 과정을 뜻한다.
비즈니스 문제에 따라 분석의 목표, 사용 기법, 필요한 데이터가 완전히 달라질 수 있다.
현재 상황을 묘사하고 진단하는 것이라면 통계치를 내거나 여러 종류의 데이터 간 관계를 파악하기 위해 회귀분석 등 적용
반면 미래 현상을 예측하는거라면 회귀분석과 머신러닝 또는 딥러닝 기반의 예측 모델을 활용할 수도 있다.

2. 전처리/EDA
데이터 엔지니어가 구축한 파이프라인의 테이터 레이크나 데이터 웨어하우스에서 분석에 사용할 데이터를 수집한다.
데이터가 부족하거나 적합하지 않다면 조직 밖에서 데이터를 찾아 수집하기도 한다. 온라인 상의 데이터를 자동으로 수집하는 웹 크롤러를 직접 구축하거나 API를 활용하기도 한다.
수집한 데이터는 '필터링', '정제', '전처리' 과정을 거쳐 분석에 적합한 상태로 만든다.
전 세게 데이터에서 '국가'가 '대한민국'으로 명시된 데이터만 가져오는 과정을 '필터링'이라고 한다.
그런데 국가가 대한민국인데 위도와 경도가 미국이라면 이를 더티 데이터라고 한다. 이를 정제할 필요가 있다.
EDA(Exploratory Data Analysis)는 탐색적 데이터 분석이라는 의미로, 데이터를 탐색해 의미를 이해하는 과정을 말한다.
이는 데이터 분석에 어떤 데이터를 사용할 것인지 결정하기 전에 데이터를 다각도로 들여다보고, 도출할 수 있는 인사이트를 고민하며, 부족한 부분을 보완하는 것을 의미한다.

 

3. 모델링 검증
모델링은 프로그래밍을 통해 분석에 적합한 모델을 만든 후 데이터에 적용해 결과를 도출하는 과정이다.
이를 위해 다양한 모델의 작동 원리, 장단점, 특징 등을 정확하게 파악하고 있어야 한다.
무엇보다 모델을 즉시 실무에 적용해도 무리가 없을지 판단하는 과정을 '검증'이라고 한다.
모델링 결과는 누가 어떤 시각에서 보느냐에 따라 다양하게 해석될 수 있다.
그렇기에 결과에 기반을 두고 모델을 실무에 투입시킬 수 있는지 여부를 판단하는 것이 매우 중요하다.

 

 

3. 데이터 사이언티스트의 성공 요소

- 지식 및 스킬 : 데이터 마이닝, 머신러닝, 통계 기법 등 관련 분야에 대한 풍부한 수학적, 통계학적 지식을 갖춰야 한다.
                          파이썬과 R, SQL 등 프로그래밍 능력도 필요, 또한 데이터의 크기가 방대하기에 분산 처리와 성능 문제를                            해결하기 위한 컴퓨터공학적 지식이 많을수록 업무에 도움이 된다. 구축된 파이프라인을 이해할 수 있는                              지식까지 있다면 더욱 좋다.

- 성향 및 태도 : 스스로 질문할 수 있는 능력을 갖춘 호기심이 많은 성향을 지니는 것이 좋다. 관련 학계에서는 새로운 모델                           과 기술이 끊임없이 등장하기 때문에 이를 따라갈 수 있는 학습 능력도 필요하다. 또한 이에는 의사소통

                         능력도 수반돼야 한다.

 

 

4. 데이터 사이언티스트의 취업 팁

- 빅데이터와 머신러닝 관련 수업을 수강하기를 추천, 본인이 근무하고 싶은 분야의 전문 지식을 습득, 금융 부분에 취업하고 싶다면 금융 지식을 알아야 하는 등 배경 지식을 갖추는 것이 좋다.  

- 취업 희망하는 곳이 데이터 전문가의 업무가 주가 되는 회사인지, 배울 점이 많은 회사인지 파악하는 것이 중요하다. 즉 활용 가능성이 높은 좋은 데이터를 많이 보유한 회사에서 근무해야 더욱 성장할 수 있다.

 

 

 

출처 :  빅데이터 커리어 가이드북 : 네이버 도서 (naver.com)

다른 직업군의 내용은 아래 링크를 참조

 

빅데이터 직업 종류 5가지 소개

1. 데이터 엔지니어 - 업무 : 데이터 자체와 데이터를 둘러싼 시스템을 책임지는 사람으로, 데이터 관리뿐 아니라 수집, 보관, 처리 시스템의 개발, 구조 설계, 유지보수를 담당한다.  또한 사내

maeseok.tistory.com