행동 가치의 초기 추정값 Q_1(a) 에 어느 정도 영향을 받았다. 이러한 방법은 초깃값만큼 편중되어 biased 있다.
이러한 편차가 존재하는 것이 대개는 문제가 되지 않는다. 오히려 때로는 매우 도움이 될 수 있다.
한 가지 부정적인 측면은 초기 추정값이 모두 0으로 설정되는 상황이 벌어지더라도 이 값이 실질적으로는 사용자에 의해 선택되어야만 한다는 점이다.
하지만 사전 지식을 활용하여 초기 추정값을 정할 수 있다는 점은 긍정적 측면이다.
행동 가치의 초깃값을 설정하는 것 자체가 탐험을 촉발하기 위한 방법으로 활용될 수도 있다.
초기에는 긍정적 방법이 더 많이 탐험하기 때무네 더 나쁜 결과를 보이지만, 시간에 따라 탐험이 줄어들기 때문에 궁극적으로는 더 좋은 성능을 보여준다.
이처럼 탐험을 촉직하는 기법을 긍정적 초깃ㄱ밧이라고 부른다.
이 기법은 정상적 문제에는 꽤 효과적, 하지만 탐함험을 촉발하는 데 유용한 일반적인 방법과는 거리가 멀다.
ㅂㅣ정상적 문제에는 적합적이지 않다. 탐험에 대한 원동력이 일시적이기 때문,
시간의 시작은 오직 한 번만 발생한다. 그렇기 때문에 초기 조건에 너무 많이 초점을 두면 안 된다.
'단단한 강화학습' 카테고리의 다른 글
2.8 경사도 다중 선택 알고리즘 (0) | 2023.06.18 |
---|---|
2.7 신뢰 상한 행동 선택 (1) | 2023.06.18 |
2.5 비정상 문제의 흔적 (0) | 2023.06.17 |
2.4 점증적 구현 - 추정 가치의 계산 (0) | 2023.06.17 |
2.3 10중 선택 테스트 (1) | 2023.06.17 |