1. 강화학습이란?
- 강화학습 문제는 기본적으로 '환경', '에이전트', '상태', '행동', '보상'이라는 요소로 이뤄진다.
강화학습의 목표는 환경 안에 있는 에이전트가 환경과 상호작용을 하면서 최적의 의사결정을 하는 것이다.
에이전트와 환경 간의 상호작용은 상태, 행동, 보상을 주고받음으로써 이뤄진다.
에이전트는 환경에게 행동을 제공하고, 환경은 에이전트에게 상태와 보상을 제공하는 방식이다.
에이전트의 행동을 받아들인 환경은 에이전트에게 새로운 상태와 보상을 제공한다.
상태는 에이전트가 처한 상황을 나타낸다. 에이전트가 행동을 취해 현재 상태에서
다음 상태로 바뀌는 것을 '상태 전이'라고 한다.
- 보상은 에이전트의 행동을 평가할 수 있는 지표이다. 상태, 행동, 보상은 강화학습 문제를 정의하는
주체가 세세하게 정할 수 있다. 예시로 게임에서 죽으면 얼마나 작은 보상을 줄 것인지, 아이템을
먹으면 얼마나 큰 보상을 줄 것인지가 이에 해당한다.
에이전트는 어떤 상황에서 어떤 행동을 했을 때 무엇을 보상으로 얻는지를 바탕으로 새로운 상태에서
보상을 최대화하는 행동을 취한다. 에이전트가 처할 수 있는 모든 상태에서 어떠한 행동을 취해야 하는지를
알려 주는 함수를 '정책'이라고 한다. 상태, 행동, 새로운 상태의 순환이 정책을 따라 계속된다면,
이때 순서대로 기록되는 상태, 행동, 상태 행동 등을 '궤적'이라고 한다. 또한 이 궤적을 따라갔을 때
얻는 보상의 총합을 '리턴'이라는 확률 변수라고 생각하면, 강화학습 문제는 리턴의 기대값을
최대화하는 정책을 찾는 문제라고 할 수 있다.
Key point : 강화학습 문제는 에이전트와 환경의 상호작용을 통해 최종적으로
보상의 총합을 최대화하는 정책을 찾는 문제라고 할 수 있다.
2. 강화학습과 마르코프 결정 과정
- 강화학습에서 환경을 포함하는 문제를 '마르코프 결정 과정'으로 가정할 때가 많다.
마르코프 결정 과정은 현재 상태가 과거 모든 상태의 정보를 담고 있는 문제를 설정하는 것인데,
이에 따라 정책 또한 '정상 정책'이라고 가정할 때가 많다. 정상 정책은 과거 상태를 무시한 채
현재 상태만으로 행동을 결정하는 정책을 말한다.
3. 강화학습 문제의 종류
- 강화학습 문제는 성격에 따라 여러 종류로 나누기도 한다.
비디오 게임처럼 환경과 상호작용이 끝나는 지점이 있으면 '에피소딕 문제',
상호작용이 끝나지 않고 계속 이어진다면 '연속적 문제'라고 한다.
또한 에피소딕 문제는 상태 전이가 주어진 수에 도달하면 끝나는 '유한기간' 문제와
무한히 이어질 수 있는 '무한기간' 문제로 나눌 수 있다.
어떤 환경에서는 같은 상태에서 같은 행동을 해도 확률에 따라 다양한 상태로 전이할 수 있다.
이러한 환경은 '확률적 역학'을 가진다. 라고 표현하고, 같은 상태에서 같은 행동을 했을 때
항상 일정한 상태로 전이하는 환경은 '결정적 역학'을 가진다라고 표현한다.
4. 강화학습 에이전트의 정책
- 또한 에이전트의 정책도 '결정적 정책'과 '확률적 정책'으로 나눌 수 있다.
강화학습 알고리즘은 확률 분포에 따라 행동이 정해지는 확률적 정책을 찾아야 할 수도 있다.
반면, 특정 상태에 도달했을 때 정해진 행동만으로 취하는 정책을 '결정적 정책'이라고 한다.
강화학습에는 '탐색-이용 트레이드오프'의 문제가 있다. 탐색은 환경에 대한 정보를 수집하기 위해
다양한 행동을 취하거나 다양한 상태에 방문하는 것을 말하고, 이용은 현재 얻은 정보를 바탕으로
최적의 의사결정을 내리는 것을 말한다.
예시로 맛이 검증된 맛집을 갈 것인지, 새로운 음식점에 도전할 것인지의 상층 문제도,
탐색 이용-트레이드오프의 예시라고 할 수 있다.
강화학습에서 보상, 정책 등은 함수로 간주된다. 이 함수는 강화학습 에이전트를 학습하면서
함께 학습되는데, 여기서 지도학습 기법이 많이 적용된다. 에이전트가 환경을 모델링하는 방식에 따라
인공 신경망이 사용되기도 하고, 선형회귀함수가 사용되기도 한다.
강화학습에서 파생된 문제에는 '모방학습'이 있다. 모방학습은 최적의 결정을 내리거나 최적과 가까운
결정을 내리는 시범자의 상호작용 데이터를 바탕으로 시범자와 비슷한 행동을 취하는 에이전트를
학습하는 문제를 말한다. 대표적인 예시로는 '역강화학습', '행동 복제' 등을 들 수 있다.
역강화학습은 시범자의 행동 데이터를 바탕으로 그 시범자가 가졌을 것같은 보상을 역으로 추적하는 문제,
행동 복제는 시범자의 행동 데이터를 지도학습 기법으로 학습해 에이전트를 만드는 문제이다.
5. 강화학습과 지도학습의 차이
- 가장 큰 차이점은 상호작용이다. 지도학습 모델이 사용하는 데이터는 레이블과 입력 데이터가
이미 1:1로 대응된 상태이기에 학습 과정에서 모델이 레이블에 대한 어떠한 예측을 하든
정답의 정보를 수동, 즉각적으로 받아들일 수 있다. 반면, 강화학습 에이전트는 학습 과정에서
에이전트가 취하는 행동에 따라 받는 정보가 다르고, 그 정보를 받기까지 시간이 필요할 수도 있다.
따라서 강화학습 에이전트는 지도학습 모델과 달리, 최대한의 정보를 얻기 위해서나
최대한의 보상을 얻기 위해 계속 고민을 한다. 이를 '탐색-이용 트레이드오프'라고 한다.
'IT지식 > 인공지능' 카테고리의 다른 글
[인공지능] 강화학습 기법 - 종류와 해당 알고리즘 정리 (3) | 2022.11.09 |
---|---|
[인공지능] 강화학습 프로세스 - 4단계로 정리하기 (0) | 2022.11.06 |
[인공지능] 비지도학습 - 개념 정리부터 프로세스 및 기법까지 (1) | 2022.11.04 |
[인공지능] 지도학습 기법 - 선형회귀, 인공 신경망(CNN, RNN, 퍼셉트론) 등 (4) | 2022.11.02 |
머신러닝 지도학습 프로세스 - 6단계로 정리 (0) | 2022.11.01 |