본문 바로가기

단단한 강화학습

2.7 신뢰 상한 행동 선택

행동 가치 추정의 정밀도에 대해 항상 불확실성이 있기 때문에 탐험은 필요하다.

탐욕적 행동은 최선인 것 처럼 보여도 실제로는 다른 행동이 더 좋을 수 있다. 

 

최선의 행동은 행동 가치의 추정값이 최대치에 얼마나 가까운지, 그리고 추정의 불확실성이 얼마인지를 고려하여 실제로 최적 행동이 될 잠재력에 따라 비ㅏㅁ욕적 행동 중에서 선택하는 것,

ln t 는 t 에 대한 자연로그, N_t(a) 는 t 시각 이전에 행동 a 가 선택된 횟수, c 는 탐험의 정도를 조정한다.

N(a) = 0 이면 a 는 위 식을 최대화하는 행동으로 여겨진다.

 

이러한 신뢰 상한 Upper Confidence Bound 행동 선택의 개념은 제곱근 항을 통해 행동 a 의 가치에 대한 추정값의 불확실성 또는 편차를 고려한다는 것이다. 이때 위 식의 최댓값은 행동 a 의 진짜 가치로서 가능한 값들에 대해 일종의 상한이 되며, c 는 이 상한의 신뢰 수준을 결정한다. 

행동 a 가 선택될 때마다 불확실성은 아마도 감소할 것이다.

 

자연로그를 사용한다는 것은 증가량이 시간에 따라 점점 감소하지만 상한 없이 계속 증가한다는 것을 의미한다. 결국, 모든 행동이 선택되지만 더 작은 가치 추정값을 갖는 행동이나 이미 자주 선택된 행동은 시간에 따라 선택되는 빈도수가 작아질 것이다.