본문 바로가기

단단한 강화학습

4.6 일반화된 정책 반복

정책 반복은 동시에 서로 상호작용하는 두 개의 과정으로 구성된다. 하나는 가치 함수가 현재 정책을 잘 따르도록 하느 ㄴ것이고, 다른 하나는 정책을 현재 가치 함수에 대한 탐욕적 정책으로 만드는 것이다. 

정책 반복에서는 이 두 과정이 번갈아 나타난다. 이때 실제로 반드시 필요한 것은 아니지만, 하나의 과정이 끝난 후에 다른 과정이 시작된다. 

가치 반복에서는 매 단계의 정책 향상 과정 사이에 오직 한 번의 정책 평가 과정이 수행된다. 

 

정책 평가와 정책 향상의 반복 주기, 그리고 세부 사항에 관계없이 이 두 과정이 서로 상호작용하게 하는 일반적인 방법을 가리키기 위해 일반화된 정책 반복 Generalized Policy iteration GPI 라는 용어 사용, 

거의 모든 강화학습 방법은 GPI 로 잘 설명된다. 말하자면, 모든 강화학습 방법에는 식별 가능한 정책과 가치 함수가 포함된다는 것이다. 

정책은 항상 가치 함수의 측면에서 향상되고 있으며, 가치 함수는 향상 그 정책에 대한 가치 함수로 귀결된다. 평가 과정과 향상 과정이 모두 안정화되면, 즉, 더 이상 변화를 만들지 않으면 가치 함수와 정책은 틀림없이 최적화된 것이다. 가치 함수는 현재 정책을 따를 때만 안정화될 수 있고, 정책은 현재 가치 함수에 대해 탐욕적일 때만 안정화될 수 있다.

그러므로 자기 자신의 가치 함수에 대해 탐욕적인 정책을 찾을 수 있으 ㄹ때만 두 과정이 모두 안정화될 수 있다.

 

GPI 에서 평가와 향상의 과정은 서로 경쟁하기도 하고 협력하기도 하는 것으로 비춰질 수 있다. 정책이 가치 함수에 대해 탐욕적이 되도록 만들면 일반적으로 가치 함수는 변경된 정책에 대해 부정확해지고, 가치 함수가 정책을 따르도록 만들면 일반적으로 정책은 더 이상 탐욕적이지 ㅇ낳다. 하지만 장기적 측면에서는 이 두 과정이 서로 상호작용하여 하나의 공통 해를 찾게 된다. 그것이 바로 최적 가치 함수와 최적 정책이다.

 

GPI 의 평가와 향상 과정 사이에서 일어나는 상호작용을 두 개의 제약조건 또는 두 개의 목표라는 측면에서 생각할 수도 있다. 두 가지 목표는 상호작용하며 서로에게 영향을 미친다. 하나의 목표를 향해 나아가면 다른 목표로부터는 멀어지고 반복하는 과정은 최적화라는 전체적인 목표에 더 가까이 다가가게 된다. 

'단단한 강화학습' 카테고리의 다른 글

5.1 몬테카를로 예측  (0) 2023.06.28
5. 몬테 카를로 방법  (0) 2023.06.28
4.5 비동기 동적 프로그래밍  (0) 2023.06.28
4.4 가치 반복  (0) 2023.06.28
4.3 정책 반복  (0) 2023.06.28