H(a) 로 표현되는 각 행동 a 에 대한 수치적 선호도를 학습,
선호도가 클수록 그 행동이 더 자주 선택되지만, 선호도를 보상과 같은 것으로 보지는 않는다.
한 행동이 다른 행동에 대해 갖는 상대적 선호도만이 중요, 행동이 선택될 확률은 소프트맥스 분포에 따라 결정된다.
이러한 상황에 적용할 만한 것 중에 확률론적 경사도 증가의 개념을 확용한 신경 학습 알고리즘,
'단단한 강화학습' 카테고리의 다른 글
3. 유한 마르코프 결정 과정 (0) | 2023.06.26 |
---|---|
4.2 소거법으로 선형 방정식 풀기 (3) | 2023.06.18 |
2.7 신뢰 상한 행동 선택 (1) | 2023.06.18 |
2.6 긍정적 초깃값 (1) | 2023.06.18 |
2.5 비정상 문제의 흔적 (0) | 2023.06.17 |