본문 바로가기

단단한 강화학습

(37)
6.1 TD 예측 TD 와 몬테카를로 방법은 모두 예측 문제를 풀기 위해 경험을 활용한다. 정책 pi 를 따르는 어떤 경험이 주어졌을 때, 두 방법은 모두 그 경험에서 발생하는 비종단 상태 S_t 에 대해 v_pi 의 추정값 V 를 갱신한다. 몬테 카를로 방법은 상태를 마주친 이후에 발생하느 ㄴ이득을 알 수 있을 때까지 기다렸다가 이득이 알려지면 그 이득을 V(S_t) 의 목표로 사용한다. 비정상 환경에 적합한 간단한 모든 접촉 몬테카를로 방법은 다음과 같다. G_t 는 시각 t 이후의 실제 이득이고, alpha 는 고정 시간 간격 파라미터다. V(S_t) 의 증가량을 결정하기 위해 에피소드가 끝날 때까지 기다려야 하는 반면,TD 방법은 다음 시간 단계까지만 기다리면 된다. 시각 t+1 에서 즉각적으로 목표를 형성하고 관..
6. 시간차 학습 중심이 되는 새로운 개념 하나는 시간차 Temporal-Difference. TD 학습이다. 이는 몬테카를로 방법과 동적 프로그래밍 방법을 결합한 것이다. 환경의 동역학에 대한 모델 없이도 가공하지 않은 경험으로부터 직접 학습할 수 있다. TD 방법은 최종 결과를 얻을 때까지 기다리지 않고, 부분적으로는 다른 학습된 추정값을 기반으로 추정값을 갱신한다. 정책 평가 또는 예측 문제, 주어진 정책 pi 에 대해 가치 함수 v_pi 를 추정하는 문제에 초점을 맞추며 논의를 시작, 제어 문제의 경우 일반화된 정책 반복을 일부 변형된 형태로 사용한다. 그 차이는 예측 문제에 대한 접근법의 차이
5.3 몬테카를로 제어 이제 몬테카를로 추정이 어떻게 제어에 사용될 수 있는지, 어떻게 최적 정책을 근사하는 데 사용될 수 있는지에 대해 생각할 준비가 되었다. 일반화된 정책 반복 GPI 의 개념을 따라 나아가는 것이다. GPI 에서는 근사 정책과 근사 가치 함수를 모두 유지한다. 가치 함수는 현재 정책에 대한 가치 함수의 참값을 좀 더 정밀하게 근사하기 위해 반복적으로 값을 변경하고, 정책은 현재 가치 함수에 대해서 반복적으로 향상된다. 이 두 종류의 변화는 매번 서로의 목표를 이동시키기 때문에 어느 정도까지는 서로의 목표 달성을 방해하지만 결국에는 함께 최적 정채고가 최적 가치 함수에 도달하게 한다. 먼저, 전통적인 정책 반복을 몬테카를로 방식으로 변경한 것에 대해 생각, 이 방법에서는 정책 평가와 정책 향상의 완전한 단계..
5.2 몬테카를로 행동 가치 추정 모델을 활용할 수 없다면 상태 가치 대신에 행동 가치를 추정하는 것이 특히 유용하다. 단순히 한 단계 앞을 내다보고 어떤 행동이 보상과 다음 상태의 가장 좋은 조합을 이끌어낼지를 선택하면 되기 때문이다. 하지만 모델이 없다면 상태 가치만으로는 충분하지 않다. 정책을 제안하는 데 유용한 가치를 얻기 위해서는 각 행동의 가치를 분명하게 추정해야 한다. 따라서 몬테카를로 방법을 사용하는 주된 목적은 q_* 를 추정하는 것이다. 이러한 목적을 달성하기 위해 먼저 행동 가치에 대한 정책 평가 문제를 생각, 행동 가치에 대한 정책 평가 문제는 초기 상태 s 에서 행동 a 를 선택하고 이후에는 정책 pi 를 따르 ㄹ때 얻게 되는 이득의 기댓값 q_pi(s,a) 를 추정하는 것이다. 이 문제를 풀기 위한 몬테카를로 방..
5.1 몬테카를로 예측 주어진 정책에 대해 상태 가치 함수를 학습하기 위한 몬테카를로 방법의 생각, 어떤 상태의 가치는 그 상태를 시작점으로 하여 계산된 이득의 기댓값이라는 점을 상기, 그렇다면 경험으로부터 상태의 가치를 추정하는 분명한 방법은 단순히 그 상태 이후에 관측되는 모든 이득에 대해 평균을 계산하는 것이다. 더 많은 이득이 관측됨에 따라 그 평균값은 기댓값으로 수렴해야 한다. 이것이 몬테카를로 방법의 기저에 깔린 개념이다. 특히, 정책 pi 하에서 상태 s 를 통과함으로써 얻어지는 에피소드의 집합이 주어졌을 때, 정책 pi 를 따르는 상태 s 의 가치, v_pi(s) 를 추정하길 원한다고 가정, 한 에피소드에서 상태 s 가 발생할 때마다 그것은 s 와의 접촉 visit 으로 불린다. 동일한 에피소드 안에서 s 를 여..
5. 몬테 카를로 방법 가치 함수를 추정하고 최적 정책을 찾는 데 활용할 방법, 환경을 완전히 알고 있다고 가정하지 않는다. 몬테카를로 방법은 오로지 경험만을 필요로 한다. 이 경험이란 환경과의 상호작용으로부터 발생한 상태, 행동, 보상의 표본을 나열한 것이다. 이때 환경과의 상호작요은 실제 상호작요일 수도 있고 실제를 모사한 것일 수도 있다. 실제 경험으로부터 학습하는 것은 환경의 동역학에 대한 사전지식 없이도 최적 행동을 할 수 있게 해 준다는 점에서 매력적이다. 실제를 모사한 경험으로부터 학습하는 것도 강력하다. 모델이 필요하다 하더라도 그 모델이라는 것은 단지 표본 전이를 생성하기만 하면 된다. 가능한 모든 전이에 대해 완벽한 확률 분포를 알 필요는 없다. 원하는 확률 분포를 따르는 표본 경험을 생성하는 것은 쉽지만 확..
4.6 일반화된 정책 반복 정책 반복은 동시에 서로 상호작용하는 두 개의 과정으로 구성된다. 하나는 가치 함수가 현재 정책을 잘 따르도록 하느 ㄴ것이고, 다른 하나는 정책을 현재 가치 함수에 대한 탐욕적 정책으로 만드는 것이다. 정책 반복에서는 이 두 과정이 번갈아 나타난다. 이때 실제로 반드시 필요한 것은 아니지만, 하나의 과정이 끝난 후에 다른 과정이 시작된다. 가치 반복에서는 매 단계의 정책 향상 과정 사이에 오직 한 번의 정책 평가 과정이 수행된다. 정책 평가와 정책 향상의 반복 주기, 그리고 세부 사항에 관계없이 이 두 과정이 서로 상호작용하게 하는 일반적인 방법을 가리키기 위해 일반화된 정책 반복 Generalized Policy iteration GPI 라는 용어 사용, 거의 모든 강화학습 방법은 GPI 로 잘 설명된..
4.5 비동기 동적 프로그래밍 DP 방법의 주요 단점은 DP 가 MDP 의 전체 상태에 대한 계산 과정을 포함한다는 것이다. 다시 말해, 상태 집합에 대한 일괄 계산이 필요하다는 점이다. 상태 집합의 크기가 매우 크다면 한 번의 일괄 계산도 할 수 없을 정도로 계산량이 많을 수 있다. 비동기 asynchronous DP 알고리즘은 상태 집합에 대해 체계적인 일괄 계산을 수행하지 않는 개별적인 반복 DP 알고리즘이다. 이 알고리즘은 상태의 가치를 갱신하는 순서가 무엇이든 개의치 않고, 다른 상태의 가치를 이용할 수 있는 상황이라면 그 값이 무엇이든 상관없이 다른 상태의 가치를 이용하여 해당 상태의 가치를 갱신한다. 어떤 상태의 가치가 한 번 갱신될 동안 다른 상태의 가치는 여러 번 갱신될 수도 있다. 하지만 정확하게 수렴하기 위해 비동..