본문 바로가기

단단한 강화학습

5.1 몬테카를로 예측

주어진 정책에 대해 상태 가치 함수를 학습하기 위한 몬테카를로 방법의 생각, 

어떤 상태의 가치는 그 상태를 시작점으로 하여 계산된 이득의 기댓값이라는 점을 상기, 그렇다면 경험으로부터 상태의 가치를 추정하는 분명한 방법은 단순히 그 상태 이후에 관측되는 모든 이득에 대해 평균을 계산하는 것이다. 

더 많은 이득이 관측됨에 따라 그 평균값은 기댓값으로 수렴해야 한다. 이것이 몬테카를로 방법의 기저에 깔린 개념이다. 

 

특히, 정책 pi 하에서 상태 s 를 통과함으로써 얻어지는 에피소드의 집합이 주어졌을 때, 정책 pi 를 따르는 상태 s 의 가치, v_pi(s) 를 추정하길 원한다고 가정,

한 에피소드에서 상태 s 가 발생할 때마다 그것은 s 와의 접촉 visit 으로 불린다. 동일한 에피소드 안에서 s 를 여러 번 마주칠 수 있다. 한 에피소드에서 s 를 처음 마주치는 것을 s 와의 최초 접촉이라 부르자.

최초 접촉 MC 방법은 s 와의 최초 접촉 이후에 발생하는 이득의 평균을 구함으로써 v_pi(s) 를 추정한다. 

반면에, 모든 접촉 MC 방법은 s 와의 모든 접촉 이후에 발생하는 이득의 평균을 계산한다. 

 

두 MC 방법은 s 와의 접촉 또는 최초 접촉 개수가 무한으로 갈수록 v_pi(s) 로 수렴한다. 

'단단한 강화학습' 카테고리의 다른 글

5.3 몬테카를로 제어  (0) 2023.06.28
5.2 몬테카를로 행동 가치 추정  (0) 2023.06.28
5. 몬테 카를로 방법  (0) 2023.06.28
4.6 일반화된 정책 반복  (0) 2023.06.28
4.5 비동기 동적 프로그래밍  (0) 2023.06.28