1. 강화학습 기법이란? - 강화학습 기법은 환경과 상호작용해 얻은 정보를 바탕으로 에이전트의 모델을 업데이트하고, 그 모델을 사용해 에이전트의 정책을 개선하는 것이다. 이후 에이전트는 개선한 정책을 사용하거나 다른 정책을 사용해 환경과 상호작용한다. 환경에서 행동을 취하면 '현재 상태', '행동', '다음 상태'의 상태 전이 정보와 '보상'을 데이터로 얻는다. 그다음은 얻은 데이터를 기반으로 에이전트 내의 모델을 업데이트 한다. 이 모델은 모델기반 강화학습에서 환경의 작동 원리가 될 것이고, 모델프리 강화학습에서는 가치함수나 몬테카를로 방식으로 얻은 보상의 합이 될 것이다. 이렇게 얻은 정보를 처리해 모델을 업데이트한 후 모델을 사용해 정책을 개선한다. 끝으로 개선한 정책 또는 다른 정책을 사용해 환경..