다음의 학습 문제를 생각, k 개의 서로 다른 옵션이나 행동 중 하나를 반복적으로 선택해야 한다. 매 선택 후에는 숫자로 된 보상이 주어진다.
이때 보상을 나타내는 값은 선택된 행동에 따라 결정되는 정상 확률 분포 stationary pobability distribution (시간에 따라 변하지 않는 확률 분포) 로부터 얻어진다. 선택의 목적은 일정 기간, 시간 간격동안 주어지는 보상의 총량에 대한 기댓값을 최대화하는 것
이것은 다중 선택 문제 k-armed bandit problem 의 원형이다.
다중 선택이라는 이름은 k 개의 레버를 갖는다는 점만 제외하면 단일 선택 one-armed bandit 과 유사하기 때문에 부여졌다.
매번 행동을 선택하는 것은 여러 개의 슬롯 머신 중 하나의 레버를 당기는 것과 같고, 선택한 행동이 가져오는 보상은 잭팟을 터뜨렸을 때 받는 상금이다.
반복적으로 행동을 선택하면서 최고의 보상을 주는 레버에만 집중하게 됨으로써 보상을 최대로 만드는 것이 선택의 목적이다.
다중 선택 문제에서.k 개의 행동 각각에는 그 행동이 선택되었을 때 기대할 수 있는 평균 보상값이 할당된다. 이러한 평균 보상값을 그 행동의 가치 value 라고 부른다.
시간 단계 t 에서 선택되는 행동은 A_t 로 표현하고, 그에 따른 보상은 R_t 로 표현한다. (action, reward)
이제 임의의 행동 a 의 가치 q_*(a) 는 행동 a 가 선택되었을 때 얻는 보상의 기댓값으로 다음과 같이 표현된다.

행동 a 일 때 보상에 대한 조건부 확률
만약 모든 행동의 가치를 이미 알고 있다면 다중 선택 문제를 푸는 것은 쉬운 일이다. 가장 큰 가치를 주는 행동을 선택하면 되기 때문, 하지만 행동의 가치를 추정할 수는 있더라도 확실히 알지 못한다는 것이 기본 전제다.
시간 단계 t 에서 추정한 행동 a 의 가치는 Q_t(a) 로 표현하는데, 추정값 Q_t(a) 가 기댓값 q_*(a) 와 가까워질수록 정확한 추정이 된다.
행동의 가치를 추정할 수 있다면 각 시간 단계마다 추정 가치가 최대인 행동을 하나 이상 결정할 수 있다. 최대의 가치를 갖는 이러한 행동을 탐욕적 행동 greedy 이라고 부를 수 있다. 탐욕적 행동을 선택하는 것은 행동의 가치에 대해 현재까지 갖고 있는 지식을 활용 exploiting 하는 것이다.
탐욕적 행동이 아닌 다른 행동을 선택하는 것은 비탐욕적 행동이 추정 가치를 상승시킬 수 있으므로 이것은 탐험 exploring이다.
장기적으로 보상의 총합을 키우기 위해서는 탐험이 더 좋은 선택일 수 있다.
특정한 경우에 탐험과 활용을 하는 것이 좋을지는 정밀한 가치 추정값과 불확실성, 앞으로 남아 있는 단계의 개수에 따라 복잡한 방법으로 결정된다.
활용과 탐험 사이의 균형을 잡기 위한 방법들 대부분은 정적인 사전 지식에 대한 가정을 기반으로 하는데, 문제는 이러한 가정이 나중에 다루게 될 강화학습 문제 전반에 있어 그리고 강화학습 방법을 적용하는 데 있어서 성립하지 않는다는 점이다.
어떻게든 균형을 맞추는 것이 문제,
'단단한 강화학습' 카테고리의 다른 글
2.3 10중 선택 테스트 (1) | 2023.06.17 |
---|---|
2.2 행동 가치 방법 (0) | 2023.06.17 |
2. 다중 선택 - 평가 훈련 정보의 사용, (0) | 2023.06.17 |
1.5 확장된 예제 : 틱택토 (0) | 2023.06.16 |
1.3 강화학습의 구성 요소 (0) | 2023.06.16 |