단단한 강화학습

2.8 경사도 다중 선택 알고리즘

명징직조지훈 2023. 6. 18. 04:16

H(a) 로 표현되는 각 행동 a 에 대한 수치적 선호도를 학습, 

선호도가 클수록 그 행동이 더 자주 선택되지만, 선호도를 보상과 같은 것으로 보지는 않는다. 

 

한 행동이 다른 행동에 대해 갖는 상대적 선호도만이 중요, 행동이 선택될 확률은 소프트맥스 분포에 따라 결정된다.

 

이러한 상황에 적용할 만한 것 중에 확률론적 경사도 증가의 개념을 확용한 신경 학습 알고리즘,