본문 바로가기

단단한 강화학습

2.8 경사도 다중 선택 알고리즘

H(a) 로 표현되는 각 행동 a 에 대한 수치적 선호도를 학습, 

선호도가 클수록 그 행동이 더 자주 선택되지만, 선호도를 보상과 같은 것으로 보지는 않는다. 

 

한 행동이 다른 행동에 대해 갖는 상대적 선호도만이 중요, 행동이 선택될 확률은 소프트맥스 분포에 따라 결정된다.

 

이러한 상황에 적용할 만한 것 중에 확률론적 경사도 증가의 개념을 확용한 신경 학습 알고리즘, 

'단단한 강화학습' 카테고리의 다른 글

3. 유한 마르코프 결정 과정  (0) 2023.06.26
4.2 소거법으로 선형 방정식 풀기  (3) 2023.06.18
2.7 신뢰 상한 행동 선택  (1) 2023.06.18
2.6 긍정적 초깃값  (1) 2023.06.18
2.5 비정상 문제의 흔적  (0) 2023.06.17