본문 바로가기

단단한 강화학습

2.5 비정상 문제의 흔적

이전의 평균값 방법은 정상 stationary 다중 선택 문제에 적합하다. 보상값의 확률 분포가 시간이 지나도 변하지 않음, 

실제에선 비정상적인 nonstationary 강화학습 문제가 자주 등장한다.

그런 문제에선 최근의 보상일수록 더 큰 가중치를, 오래된 보상일수록 낮은 가중치를 주는 것이 타당하다. 이를 위해 고정된 시간 간격을 사용한다.

 

시간 간격의 크기를 시간 단계에 따라 변화시키는 것이 편리할 때도 있다. 

n-1개의 과거 보상값에 대한 평균인 Q_n 을 갱신하기 위한 점증적 갱신 규칙은 다음과 같이 수정된다.

여기서 시간 간격의 크기 alpha 는 고정된 값이다. 이렇게 계산하면 Q_n+1 은 초기 추정값 Q_1 과 과거 보상값들에 대한 가중치가 적용된 평균이 된다.

 

계산해보면 가중치의 합이 1이기 때문에 이것을 가중치가 적용된 평균이라고 부른다. 보상 R_i 에 주어진 가중치는 이 보상이 관측되고 나서 앞으로 남아 있는 보상의 개수인 n-i 에 따라 결정된다.

1-alpha 라는 값은 1보다 작아서 R_i 에 주어진 가중치는 앞으로 등장할 보상의 개수가 증가함에 따라 감소한다. 사실, 가중치는 1-alpha 의 지수에 따라 기하급수적으로 감소한다. 

이것을 기하급수적 최신 가중 평균 exponential receny weighted average 라고 부르기도 한다.

 

시간 간격의 크기를 시간 단계에 따라 변화시키는 것이 편리할 때도 있다. 

행동 a 를 n 번째 선택한 이후에 받은 보상을 처리하는 데 이용할 시간 간격의 크기를 alpha_n(a) 라고 표현, 1/n 으로 선택하면 그것은 표본 평균 방법이 된다. 

 

결국 어떠한 초기 조건이나 확률적 변동성도 극

'단단한 강화학습' 카테고리의 다른 글