탐욕적 행동 가치 방법과 입실론 탐욕적 행동 가치 방법이 상대적으로 얼마나 효과적인지를 평가하기 위한 일련의 테스트용 문제로 두 방법을 수치적으로 비교,
열 번의 선택을 하는 다중 선택 문제 2000 개를 무작위로 생성,
각각의 다중 선택 문제에 대해 행동가치 q(a) 가 평균이 0이고 분산이 1인 정규 분포에 따라 선택된다.
이제 다중 선택 문제에 적용된 학습 방법에 따라 시간 단계 t 에서 행동 A_t 를 선택할 때, 실제 보상값 R_t 가 평균이 q(A_t) 이고 분산이 1인 정규 분포로부터 선택된다.
이러한 일련의 테스트를 10중 선택 테스트라 명명
어떤 학습 방법이 하나의 10중 선택 문제에 적용되었을 때, 1000 번의 시간 단계를 거치는 경험을 통해 스스로 발전하는 과정에서 그 방법의 성능과 결과를 측정할 수 있다. 그리고 이것은 모든 학습 방법에 대해 측정할 수 있다.
이렇게 해서 한 번의 실행이 끝난다. 이러한 실행을 서로 다른 10중 선택 문제에 대해 2000번 독립적으로 수행하면 학습 알고리즘의 평균 결과를 측정할 수 있다.
위 그림은 하나의 탐욕적 방법과 두 개의 입실론 탐욕적 방법을 10중 선택 테스트에서 비교하고 있다.
위쪽 그래프는 경험에 따른 보상 기댓값의 증가를 보여준다.
탐욕적 방법은 빠르게 향상되지만, 결국 낮은 수준으로 떨어진다.
테스트에서 가장 좋을 것으로 기대되는 단위 단계당 보상값 reward-pre-step 이 약 1.55 인 것에 비해 탐욕적 방법의 경우 1정도밖에 되지 않는다.
탐욕적 방법은 대체로 준최적 suboptimal 행동을 수행하는 상황에 걸리기 때문에 장기적으로는 다른 방법보다 낮은 성능을 보여준다.
입실론 탐욕적 방법은 계속된 탐험을 통해 최적 행동을 식별할 확률을 증가시켰기 때문에 결국에는 더 좋은 성능을 보여주었다.
입실론 탐욕적 방법을 사용할 때의 더 좋은 점은 문제에 따라 다르다. 보상의 분산이 더 큰 경우, 잡음이 더 많이 포함되었기 때문에 최적 행동을 찾기 위해서 더 많은 탐험이 필요할 것이고, 입실론이 더 좋은 결과를 낼 것이다.
반면 분산이 0일 경우 탐욕적 방법은 각 행동의 진짜 ㅏ치를 알게 됨으로써 최적의 성능을 보여줄 것
하지만 문제를 단순화하는 몇 가지 다른 가정을 약화시킨다면 결정론적 상황에서도 탐험으로 큰 이득을 볼 수 있다. 예를 들면 다중 선택 문제가 비정상적이라고, 즉 행동 가치의 참값이 시간에 따라 변한다고 가정, 이 경우에는 결정론적 상황에서도 탐험이 필요한데, 그 이유는 어떤 비탐욕적 행동이 탐욕적 행동보다 더 큰 가치를 갖도록 변하지 않았는지 확인해야 하기 때문
비정상적 nonstationarity 는 대부분의 강화학습 문제에서 마주치게 되는 상황, 기저에 깔린 상황이 정상적이고 결정론적이라 하더라도 학습자는 다중 선택과 같은 결정을 해야 하는 상황을 여러 번 마주치게 된다.
이러한 결정은 정책에 따라 달라지기도 하나. 탐험과 활용 사이의 균형이 필요
'단단한 강화학습' 카테고리의 다른 글
2.5 비정상 문제의 흔적 (0) | 2023.06.17 |
---|---|
2.4 점증적 구현 - 추정 가치의 계산 (0) | 2023.06.17 |
2.2 행동 가치 방법 (0) | 2023.06.17 |
2.1 다중 선택 문제 (0) | 2023.06.17 |
2. 다중 선택 - 평가 훈련 정보의 사용, (0) | 2023.06.17 |