행동 가치 추정의 정밀도에 대해 항상 불확실성이 있기 때문에 탐험은 필요하다.
탐욕적 행동은 최선인 것 처럼 보여도 실제로는 다른 행동이 더 좋을 수 있다.
최선의 행동은 행동 가치의 추정값이 최대치에 얼마나 가까운지, 그리고 추정의 불확실성이 얼마인지를 고려하여 실제로 최적 행동이 될 잠재력에 따라 비ㅏㅁ욕적 행동 중에서 선택하는 것,
ln t 는 t 에 대한 자연로그, N_t(a) 는 t 시각 이전에 행동 a 가 선택된 횟수, c 는 탐험의 정도를 조정한다.
N(a) = 0 이면 a 는 위 식을 최대화하는 행동으로 여겨진다.
이러한 신뢰 상한 Upper Confidence Bound 행동 선택의 개념은 제곱근 항을 통해 행동 a 의 가치에 대한 추정값의 불확실성 또는 편차를 고려한다는 것이다. 이때 위 식의 최댓값은 행동 a 의 진짜 가치로서 가능한 값들에 대해 일종의 상한이 되며, c 는 이 상한의 신뢰 수준을 결정한다.
행동 a 가 선택될 때마다 불확실성은 아마도 감소할 것이다.
자연로그를 사용한다는 것은 증가량이 시간에 따라 점점 감소하지만 상한 없이 계속 증가한다는 것을 의미한다. 결국, 모든 행동이 선택되지만 더 작은 가치 추정값을 갖는 행동이나 이미 자주 선택된 행동은 시간에 따라 선택되는 빈도수가 작아질 것이다.
'단단한 강화학습' 카테고리의 다른 글
4.2 소거법으로 선형 방정식 풀기 (3) | 2023.06.18 |
---|---|
2.8 경사도 다중 선택 알고리즘 (0) | 2023.06.18 |
2.6 긍정적 초깃값 (1) | 2023.06.18 |
2.5 비정상 문제의 흔적 (0) | 2023.06.17 |
2.4 점증적 구현 - 추정 가치의 계산 (0) | 2023.06.17 |