IT지식/인공지능

빅데이터와 머신러닝 (지도학습, 비지도학습, 강화학습)

매 석 2022. 10. 30. 00:40
반응형

 

 

1. 빅데이터 직종별 머신러닝의 중요도

1. 데이터 사이언티스트, 데이터 리서처

- 모델을 만드는 것이 주업무인 데이터 사이언티스트와 리서처는 머신러닝 모델을 만들고 발전시키는 데 
  많은 시간을 할애한다. 따라서 머신러닝 기법과 모델 구축 알고리즘에 대한 지식은 필수다.
  또한 머신러닝 프로세스 지식도 갖추고 있어야 한다. 해당 지식이 없으면 좋은 모델을 만들기 어렵고,
  새로운 알고리즘을 구성해 실제로 구현할 수 있는 프로그래밍 실력을 갖췄더라도 모델 구축을 둘러싼
  전반적인 흐름과 논리를 이해하거나 전개하지 못하게 된다.

 

2. 데이터 애널리스트

- 데이터 애널리스트는 주로 애널리틱스 도구나 머신러닝 패키지에 내장된 몇 개의 기법 중 하나를 선택해
  모델을 만들게 된다. 따라서 모델을 만드는 알고리즘의 내부 작동 원리를 설명할 수 있는 수준까지는 
  아니더라도 각 기법에는 어떠한 가정이 포함돼 있는지, 어떠한 하이퍼파라미터가 있고, 그 변화가 모델에
  어떤 영향을 미치는지를 확실하게 알고 있어야 한다. 또한 하나의 기법을 깊게 이해하기보다는 다양한
  기법을 사용해야 하는 상황에 집중하는 것이 좋다.
  머신러닝 프로세스를 이해하는 데이터 애널리스트는 데이터, 데이터셋, 모델 성능 평가 지표 등에 대한
  이해를 바탕으로 올바른 인사이트를 도출해낼 수 있을 뿐 아니라 이를 논리적으로 설명할 수 있다.

 

3. 데이터 기획자

- 데이터 기획자는 머신러닝을 깊게 이해할 필요는 없지만, 이를 이해하면 모델링팀의 성과를 적절히 진단할 수 있다.
  특히 모델링 팀에서 주로 사용하는 데이터셋, 학습 오차, 테스트 오차 등의 용어와 맥락을 함께 이해한다면
  원활한 소통으로 자원을 효율적으로 관리해 프로젝트를 성공적으로 이끌 수 있다.

 

4. 데이터 엔지니어

- 데이터 엔지니어 또한 머신러닝 지식을 숙지하는 것이 좋다.
  소프트웨어를 사용해 머신러닝 프로세스가 진행되기에 각 단계에서 우선순위에 둬야 할 기능을 판단해
  소프트웨어를 효율적으로 개발할 수 있다. 또한 머신러닝 모델이 사용하는 기법이나 패키지에 따라
  데이터의 형식이 달라지기도 하고, 소프트웨어의 요구사항이 변할 수도 있다.
  이때 사용하는 머신러닝 기법에 대한 기초 지식이 있다면 소프트웨어 사용자와 원활한 소통이 가능하다.

 

2. 머신러닝

- 세상에서 일어나는 일을 설명하고 예측하기 위해 '모델' 또는 '모형'이라는 것을 만든다.
  간단한 모형은 이해가 쉽지만, 더 많은 가정이 필요하거나 실제 세상을 충분히 설명하기 어렵다.
  복잡한 모형은 가정을 줄여 실제 세상을 좀 더 잘 설명하지만, 이해하기는 어렵다.
  머신러닝은 이러한 모형을 만드는 방법 중 하나이자 그 방법을 탐구하는 학문이다.
  그리고 모형을 만드는 것을 '모델링'이나 '모델 구축'이라고 한다.
  머신러닝 모델링은 데이터를 기반으로 적합한 모델을 찾아가는 것으로, 즉 학습을 진행한다.
  머신러닝 모델을 학습과 구축하는데 사용된 데이터 이외에 새로운 데이터에 대한 정확한 예측에 중점을 둔다.
  또한 절차를 명시하지 않아도 자동적으로 의도한 기능을 수행하고, 그 성능을 발전시킬 수 있다.

출처  : 지도학습 Supervised Learning - 생활코딩 (opentutorials.org)

3. 머신러닝과 학습

1. 지도학습

- 지도학습은 데이터와 정답 레이블을 연결해 주는 가장 적절한 함수를 찾는 것이다.
  예측해야 하는 레이블이 연속적인 값을 갖고 있다면 '회귀 문제', 
  연속되지 않고 서로 단절돼 있는 이산적인 값의 카테고리를 구분하는 문제를 '분류 문제'라고 한다.

출처 : [인공지능(AI)/머신러닝] 지도학습, 비지도학습,강화학습이란? : 네이버 블로그 (naver.com)

 

2. 비지도학습

- 비지도학습은 데이터에 내재된 패턴을 찾는 것이다.
  내재된 패턴을 설명할 수 있는 변수를 추출해 만드는 모델을 '잠재 변수 모델'이라 한다.
  잠재 변수는 데이터에 표면상으로 나타나 있지는 않지만, 데이터의 분포에 영향을 미치는 변수를 말한다.
  미리 정해진 분류 기준 없이 비슷한 특성의 데이터 모임을 생성하는 것을 '군집 분석'이라 한다.
  비지도학습 문제를 해결할 때는 주로 '차원 감축' 기법을 사용하는데, 이는 데이터의 정보를
  최대한 유지하면서 데이터를 표현하는 특성의 수를 줄이는 것을 뜻한다.
  이를 이용해 '차원의 저주'를 완화하고 군집화나 시각화를 효율적으로 진행할 수 있다.

출처 : 비지도학습(Unsupervised Learning) (velog.io)

 

3. 강화학습

- 강화학습은 위의 두 모델과는 다른 접근법을 취한다.
  강화학습은 여러 의사결정을 시도해 보면서 연속된 최적의 의사결정을 찾는 문제다.
  예를 들어 여러 번 바둑을 둬 지금 상황에 어떠한 수가 최적인지 찾아내는 것이다.
  강화학습 기법의 성격은 다른 머신러닝 기법과 다르다.
  하지만 강화학습 알고리즘 안에서 지도학습이나 비지도학습 모델을 활용할 때도 있기에
  일반적으로 어느 정도의 여타 머신러닝 분야에 대한 지식을 쌓은 후에 공부하는 것이 좋다.
  독립적이고 큰 머신러닝 분야인 만큼 강화학습 알고리즘을 이해하기 위해서는
  완전히 새로운 종류의 문제 정의, 용어, 데이터를 처음부터 하나씩 공부해야 한다.

 

출처 : 강화학습으로 해결할 수 있는 문제 유형으로는 무엇이 있을까? (fastcampus.co.kr)