본문 바로가기

단단한 강화학습

4.1 정책 평가(예측)

먼저 임의의 정책 pi 에 대해 상태 가치 함수 v_pi 를 계산하는 방법을 생각, 이를 DP 문헌에서는 정책 평가 policy evaluatioin 라고 부른다. 또는 예측 문제 prediction problem 라고도 한다. 

모든 s 에 대해 다음이 성립한다.

pi(a|s) 는 정책 pi 하에서 상태 s 에 있을 때 행동 a 를 선택할 확률이다. 

아래첨자 pi 는 정책 pi 를 따른다는 전제가 깔린 조건부 기댓값이라는 뜻이다. gamma < 1 을 만족하거나 정책 pi 를 따르는 모든 상태가 종국적으로 더 이상 변하지 않는 상태에 도달한다는 것이 담보된다면 v_pi 의 존재와 유일성은 보장된다.

 

환경의 동역학을 완전히 알고 있다면 위 식은 집합 S 의 원소 개수만큼의 미지수를 갖는 선형 연립 방정식이 되며, 이때 방정식의 개수도 역시 집합 S 의 원소 개수와 같다. 

연립 방정식의 해는 반복 해법을 통해 구할 수 있다. S+ 를 R에 대응시키는 근사적 가치 함수 v 의 나열을 생각해 보자. 가치 함수의 초기 근삿값을 임의로 선택하면 이어지는 근삿값은 v 를 위한 벨만 방정식을 갱신 규칙으로 하여 s 에 대해 다음과 같이 구해진다.

v_k = v_pi 일 경우 벨만 방정식의 등호가 성립하기 때문에 이 갱신 규칙을 따른다면 v_k = v_pi 의 일정한 값을 갖는다. 

사실, v_pi 의 존재를 보증하는 조건하에서는 k → INF 일 때 일반적으로 수열 v_k 는 v_pi 로 수렴함을 보일 수 있다. 이 알고리즘을 반복 정책 평가 iterativepolicy evalutation 라고 부른다.

 

매번 근삿값 v_k 로부터 v_k+1 을 연속적으로 구하기 위해 반복 정책 평가는 모든 상태 s 에게 동일한 작동 방식을 적용한다. 그 작동 방식이란 평가받고 있는 정책하에서 일어날 수 있는 모든 단일 단계 전이에 대해 s 의 이저 가치를 새로운 가치로 대체하는 것이다. 

이때 새로운 가치는 s 이후에 나타나는 상태들의 이전 가치와 즉각적인 보상의 기댓값을 이용하여 구한다. 이러한 종류의 작동 방식을 기댓값 갱신 expected update 라고 부른다. 새로운 근사적 가치 함수 v_k+1 을 얻기 위해 반복 정책 평가의 모든 반복 단계에서 모든 상태의 가치가 단 한 번만 갱신된다. 

DP 알고맂므에서 수행되는 모든 갱신은 기댓값 갱신으로 불린다. 이 갱신이 이후 상태들의 표본이 아닌 가능한 전체 상태에 대한 기댓값에 기반하여 이루어지기 때문

 

 

'단단한 강화학습' 카테고리의 다른 글

4.3 정책 반복  (0) 2023.06.28
4.2 정책 향상  (0) 2023.06.28
4. 동적 프로그래밍, DP  (0) 2023.06.27
3.8 요약, 강화학습 문제의 구성 요소  (0) 2023.06.27
3.7 최적성과 근사  (0) 2023.06.27