1. 강화학습 프로세스의 단계 1. 문제 파악하기 2. 강화학습 문제로 정의하기 3. 강화학습 기법 선택 및 에이전트 학습하기 4. 강화학습 에이전트 성능 평가 및 배포하기 2. 문제 파악하기 - 강화학습 프로젝트에서 필수적이고 중요한 단계이다. 일반적으로 '제어 또는 행동을 찾는 문제인가?', '최적의 행동이 무엇인지 정의할 수 있는 평가 지표가 있는가?'라는 두 질문에 '그렇다'라면 강화학습을 시도해 볼 만한 문제라고 간주한다. 강화학습 기법은 문제를 주로 마르코프 결정 과정으로 정의한다. 마르코프 결정 과정은 '가장 중요한 성질은 새로운 상태가 현재 상태와 행동에만 의존한다'는 것이다. 이전 상태와 이전 행동은 독립적이어야만 마르코프 결정 과정이라 할 수 있다. 또한 마르코프 결정 과정에는 상태와 ..