2. 다중 선택 - 평가 훈련 정보의 사용,

단단한 강화학습

2. 다중 선택 - 평가 훈련 정보의 사용,

명징직조지훈 2023. 6. 17. 06:24

강화학습을 다른 종류의 학습 방법과 구별 짓는 가장 중요한 특징은 올바른 행동을 알려주는 지침 instruct 이 아닌 행동의 좋고 나쁨을 평가 evaluate 하는 훈련 정보 사용한다는 점, 이러한 점 때문에 능동적인 탐험, 좋은 행동을 찾기 위한 직접적인 탐색이 필요하다.

전적으로 평가적인 피드백은 취해진 행동이 얼마나 좋은지를 나타낼 뿐, 그것이 발생할 수 있는 최상 또는 최악의 행동인지를 알려주지는 않는다.

반면에 지침적인 피드백은 실제로 취해진 행동과는 상관없이 취해야 할 올바른 행동을 알려준다.

강화학습의 평가적인 측면을 단순한 환경 속에서 살펴본다. 단순화된 구조에서는 하나의 상황에 대해서만 행동을 학습하게 된다. 이러한 비연합 nonassociative 구조는 평가적인 피드백을 포함하는 과거 대부분의 연구들이 가정한 구조이고, 이러한 구조에서는 가오하학습 문제를 다룰 때 발생하는 문제의 복잡성을 상당 부분 피할 수 있다.

또한, 이러한 구조를 택함으로써 평가적인 피드백이 지침적 피드백과 얼마나 다른지, 그 둘을 어떻게 결합할 수 있는지를 확인할 수 있다.