본문 바로가기

단단한 강화학습

3. 유한 마르코프 결정 과정

해를 찾고자 하는 유한 마르코프 결정 과정 유한 MDP, finite Markov decision process 문제를 소개, 

다중 서낵 문제와 마찬가지로 이 문제는 평가적 피드백을 포함자미나 그것 말고도 서로 다른 상황에 대해 서로 다른 행동을 선택하는 연관적 측면도 포함한다. 

연속적 의사결정의 고전적 형식인 MDP 에서는 행동이 즉각적인 보상에만 영향을 미치는 것이 아니고 이어지는 상황이나 상태에 영향을 미쳐 결국에는 미래의 보상에 영향을 준다. 

따라서 MDP 는 지연된 보상을 포함하며 이 지연된 보상과 즉각적인 보상 사이에서 균형을 잡을 필요가 있다. 

다중 선택 문제에서 각 행동 a 에 대해 q(a) 의 값을 추정했지만 MDP 에서는 각 상태 s 에 있는 각 행동 a 에 대한 q(s,a) 를 추정하거나 최적의 행동 선택을 가정한 채로 각 사애의 가치 v(s) 를 추정한다. 이러한 사애 의존적인 값은 개객의 행동 선택이 가져오는 장기적 결과에 정확하게 신뢰를 부여하는 데 있어 필수적이다.

 

MDP 는 강화학습 문제를 이론적으로 정교하게 설명할 수 있도록 해주는이상적인 수학적 형태다.