IT지식/빅데이터

빅데이터 전문가는 수학 및 통계학을 알아야 할까?

매 석 2022. 10. 29. 18:30
반응형

1. 각 직종별 수학 및 통계학이 필요한 이유

- 데이터 애널리스트는 기성 소프트웨어를 사용하기에 새로운 모델을 개발하는 경우는 흔하지 않다.
  따라서 데이터 애널리스트는 기성 소프트웨어가 내장하고 있는 데이터 분석 알고리즘을 공부하고,
  내부 기작을 이해하는데 시간을 더 할애해야 한다.
  반면 통계학은 공부한 만큼 데이터 애널리스트에게 도움이 된다. 데이터를 활용해 조직의 현재 상황을 
  진단하는 역할을 맡을 때를 보면, 통계 모델링과 결과 분석 방법, 가설 검정 등의 내용을 바탕으로 
  경영진에게 자신의 의견을 피력할 수 있는 적극적인 데이터 애널리스트가 되기 위해서 통게학 공부가 필요하다.

- 데이터 사이언티스트데이터 리서처는 수학, 통계학, 정보 이론의 내용을 숙지하고 있어야 한다.
  논문을 이해하거나 논문을 작성할 때 손실함수 설계, 이를 위한 최적화 알고리즘, 결과에 대한
  논리적 설명 모두에서 기본기가 큰 역할을 한다.

 

2. 수학

1. 선형대수
- 벡터와 행렬의 다양한 의미와 활용법을 이해하는 학문이다.
  벡터로 이뤄진 집합이 특정한 연산의 조건을 만족시킬 때, 이러한 구조를 '벡터 공간'이라 한다.
  행렬은 벡터 공간 내에 있는 벡터를 다른 벡터 공간에 있는 벡터로 보내 주는 일종의 '함수' 역할을 한다.
  행렬이 나타내는 함수는 일반 함수가 아니라 '선형성'을 유지하는 함수이다.
  선형성을 유지한다는 것은 원래 공간에서 직선을 나타내는 벡터는 함수를 거친 새로운 공간에서도

  직선이어야 한다는 것이다.


 선형대수는 데이터 분석에 필수적인 항문이다. 특히 고윳값과 고유 벡터, 행령식 등을 이용하면
  SCD(특잇값 분해), 조르당 분해 등 행렬을 분해해 좀 더 효율적으로 표현할 수 있는데 이를, 
  PCA(주성분 분석), LDA(선형 판별 분석), MDS(다차원 적도법)와 같은 행렬의 고윳값 분해를 이용한 
  머신러닝 기법의 이론적 바탕이 된다. 그렇기에 모델 이해나 알고리즘 최적화, SVD 등으로 이룰 수 있는
  행렬 분해 방법 등을 이용하면 많은 도움이 된다.

 

2. 해석 기하
- 도형과 좌표계 등 기하학적인 요소를 설명하는 분야이다. 특히 공간, 각, 길이, 연산 등을 정의하고 탐구한다.
  데이터 분석에서 자주 쓰이는 요소는 벡터 사이의 유사도를 측정하는 데 쓰이며, 내적 공간을 정의함으로써
  벡터 공간을 기하적으로 이해할 수 있게 한다. 이는 머신러닝 기법 중 클러스터링 기법이나 SVM(서포트 벡터 머신)에
  쓰이고, 벡터의 직교성, 사영, 회전 등과 같은 개념은 PCA나 선형 회귀의 이론을 제시한다.

3. 최적화
- 특정 제약 조건에서 주어진 함수(목적 함수)의 최댓값이나 최솟값을 찾는 방법을 탐구하는 분야이다.
  머신러닝 알고리즘은 최적화 문제를 푸는 것을 포함하며, 최적화 기법을 사용해 모델이 필요로 하는
  파라미터의 값을 찾을 수 있다.
  비선형 함수의 최적값을 찾는 문제는 대부분 함수의 기울기를 이용하는데, 이를 위해서는 편미분 지식이 필요하다.
  최근에 자주 쓰이는 딥러닝 모델의 학습에도 SGD(확률적 경사하강법)와 같이 기울기를 이용한 반복

  알고리즘을 사용한다. 이외에도 SVM은 QP(이차 계획법)의 해법을 사용하는 등 다양한 머신러닝 기법을

  최적화로 정의할 수 있다.

 

3. 통계학

1. 일반 통계학
- 통계학은 데이터를 과학적인 방법으로 분석해 현상을 설명하고 예측하는 학문이다.
  일반 통계학은 통계학을 처음 접하는 사람을 위한 과목으로, 데이터 수집과 실험 설계의 방법,
  결과 분석 방법 등 데이터 분석을 위한 기초 지식을 습득할 수 있는 학문이다. 또한 일반 통계학을 이용해
  표본 추출 방법, 확률과 분포, 검정, 추론, 상관분석, 분산분석 등과 같은 개념을 이해할 수 있다.

2. 회귀분석
- 변수 사이의 관계를 모형으로 만들어 설명하는 통계적 방법이다. 여러 가지 분석 모형을 배우고,
  모형 적합, 변수 선택, 모형 선택 등의 개념과 데이터 분석에 필요한 분석 모형 관련 기초 지식을 습득할 수 있다.
  또한 회귀분석을 이용하면 선형회귀, 영향점진단, 더미 변수, 다중공산성 등의 개념을 이해할 수 있다.
  회귀분석을 학습하기 위해서는 먼저 선형대수학, 일반 통계학을 학습해야 한다.

3. 기타 심화과목
- 수리 통계학은 확률 변수의 확률분포, 표본분포, 극한분포, 추정, 가설, 검정, 추론, 통계량 등을 다루며,
  선형대수학을 먼저 공부해야 한다. 범주형 데이터 분석이나 이산형 자료 분석은 범주형 데이터에 대한 분석
  방법이나 로지스틱 모형, 로짓 모형, 모형 선택, 적합도 검정, 기대 도수 추정 등을 다룬다. 
  다변량분석은 다변량 데이터에 대한 분석 방법을 다루며, 선형대수학, 회귀분석, 수리통게학을 먼저 공부해야 한다.
  시계열 분석은 시계열 데이터에 대한 분석 방법을 다루며 회귀분석을 먼저 공부해야 한다.
  베이지안 통계는 주관적 확률, 결정 이론, 사전분포, 사후분포, 극한분포, 베이지안 추정, 베이지안 검정 등을 다루며,
  선형대수학과 수리 통계학을 먼저 공부해야 한다.

 

4. 정보 이론

- 정보를 멀리 떨어진 곳으로 효율적으로 전달하는 기술을 개발하기 위해 발전된 학문이다.
  모델링은 복잡한 실세 세상의 정보와 관계를 비교적 간단하게 표현하는 것이다. 이는 데이터에 내포된 정보를
  압축하는 것과 같다. 이렇듯 정보 이론의 개념은 머신러닝 모델이 푸는 최적화 문제의 목적 함수나
  손실함수를 정의하는데 적용할 수 있고, 분포 추정이나 제약 최적화 문제를 푸는 데도 많이 쓰인다.

 

5. 공부하는 방법

- 데이터 전문가를 위한 기초 학문이기 때문에 처음부터 수학 공부가 왜 필요한지 직관적으로 와 닿지 않을 수 있다.
  그렇기에 실제로 머신러닝 모델링을 먼저 시도해 보며, 어느 부분에 이러한 지식이 적용되는지 인지하면서
  깨닫는 것이 중요하다.