이전의 평균값 방법은 정상 stationary 다중 선택 문제에 적합하다. 보상값의 확률 분포가 시간이 지나도 변하지 않음,
실제에선 비정상적인 nonstationary 강화학습 문제가 자주 등장한다.
그런 문제에선 최근의 보상일수록 더 큰 가중치를, 오래된 보상일수록 낮은 가중치를 주는 것이 타당하다. 이를 위해 고정된 시간 간격을 사용한다.
시간 간격의 크기를 시간 단계에 따라 변화시키는 것이 편리할 때도 있다.
n-1개의 과거 보상값에 대한 평균인 Q_n 을 갱신하기 위한 점증적 갱신 규칙은 다음과 같이 수정된다.

여기서 시간 간격의 크기 alpha 는 고정된 값이다. 이렇게 계산하면 Q_n+1 은 초기 추정값 Q_1 과 과거 보상값들에 대한 가중치가 적용된 평균이 된다.

계산해보면 가중치의 합이 1이기 때문에 이것을 가중치가 적용된 평균이라고 부른다. 보상 R_i 에 주어진 가중치는 이 보상이 관측되고 나서 앞으로 남아 있는 보상의 개수인 n-i 에 따라 결정된다.
1-alpha 라는 값은 1보다 작아서 R_i 에 주어진 가중치는 앞으로 등장할 보상의 개수가 증가함에 따라 감소한다. 사실, 가중치는 1-alpha 의 지수에 따라 기하급수적으로 감소한다.
이것을 기하급수적 최신 가중 평균 exponential receny weighted average 라고 부르기도 한다.
시간 간격의 크기를 시간 단계에 따라 변화시키는 것이 편리할 때도 있다.
행동 a 를 n 번째 선택한 이후에 받은 보상을 처리하는 데 이용할 시간 간격의 크기를 alpha_n(a) 라고 표현, 1/n 으로 선택하면 그것은 표본 평균 방법이 된다.
결국 어떠한 초기 조건이나 확률적 변동성도 극
'단단한 강화학습' 카테고리의 다른 글
2.7 신뢰 상한 행동 선택 (1) | 2023.06.18 |
---|---|
2.6 긍정적 초깃값 (1) | 2023.06.18 |
2.4 점증적 구현 - 추정 가치의 계산 (0) | 2023.06.17 |
2.3 10중 선택 테스트 (1) | 2023.06.17 |
2.2 행동 가치 방법 (0) | 2023.06.17 |