학습자와 주변 환경을 제외하고도 강화학습에는 네 가지 주요한 구성 요소가 있다.
정책 poliy, 보상 신호 reward signal, 가치 함수 value functoin , 주변 환경에 대한 모델 model
poliy, 정책은 특정 시점에 학습자가 취하는 행동을 정의한다. 정책이란 학습자가 인지한 주변 환경의 상태에 대해 학습자가 취해야 할 행동을 알려준다 .
그것은 심리학에서 말하는 자극-반응의 규칙이나 그와 관련된 것들과 대응된다.
어떤 경우에 정책은 간단한 함수나 열람표일 수도 있고, 더 복잡한 경우에는 탐색 과정에 필요한 방대한 양의 계산을 포함할 수도 있다.
정책 그 자체만으로도 행동을 결정할 수 있다는 점에서 정책은 강화학습 학습자에게 있어 핵심이 되는 부분이다. 일반적으로 정책은 확률론적으로 행동을 선택할 수도 있다. 이 경우, 정책은 각 행동에 선택될 확률을 부여하고 그 확률에 따라 행동을 서낵한다.
보상신호, reward signal 은 강화학습이 성취해야 할 목표를 정의한다. 매 시간마다 주변 환경은 강화학습을 이용하는 학습자에게 보상이라고 불리는 하나의 숫자를 전달한다. 학습자의 유일한 목표는 장기간에 걸쳐 학습자가 획득하게 되는 보상의 총합을 최대로 만드는 것이다.
따라서 학습자는 보상 신호의 크기로부터 자신의 행동이 좋은 것인지 나쁜 것인지를 판단할 수 있다. 보상은 학습자가 직면한 문제를 정의하는 즉각적인 신호다. 보상 신호는 정책을 바꾸는 주된 원인이 된다.
만약 정책이 선택한 행동이 적은 보상을 가져온다면 다른 선택을 하도록 정책이 바뀔 수 있다.
일반적으로 보상 신호는 환경의 상태와 취해진 행동에 대해 확률적으로 그 값이 결정되는 확률론적 함수가 될 수도 있다.
보상 신호가 무엇이 좋은 것인가를 즉각적으로 알려주는 반면, 가치 함수는 장기적인 관점에서 무엇이 좋은 것인가를 알려준다.
간단히 말해, 특정 상태의 가치는 그 상태의 시작점에서부터 일정 시간 동안 학습자가 기대할 수 있는 보상의 총량이다. 보상이 어떤 순간에 주변 환경의 상태에 내재된 고유의 장점을 나타낸다면, 가치는 특정 시점 이후의 상태와 그 상태에 포함된 장점을 고려하여 장기적 관점으로 평가한 상태의 장점이라고 할 수 있다.
예를 들어, 어떤 상태의 매 순간의 보상은 적지만 큰 보상을 갖는 상태들이 정기적으로 뒤따라온다면 그 상태는 여전히 높은 가치를 갖게 된다.
어떤 면에서 보상은 주된 것이고 가치는 보상에 대한 예측이므로 부수적이다. 보상 없이는 가치가 있을 수 없고, 가치를 평가하는 것도 오로지 더 많은 보상을 얻기 위해서다.
그런데도 어떤 결정을 내리고 그 결정을 평가할 때 가장 많이 고려하는 것은 가치다. 행동의 선택은 가치에 대한 판단을 기준으로 이루어진다. 보상이 최대인 행동보다는 가치가 최대인 행동을 선택해야 한다. 이렇게 해야 장기적으로 최대한 많ㅇ느 보상을 얻을 수 있기 때문
하지만 보상이 얼마인지 결정하는 것보다 가치의 크기를 결정하는 것이 더 어렵다. 보상은 주변 환경으로부터 기본적으로 주어지지만, 가치는 학습자의 전 생애주기 동안 학습자가 관찰하는 것들로붙터 반복적으로 추정되어야만 한다.
환경 모델은 환경의 변화를 모사한다. 좀 더 일반적으로는 환경이 어떻게 변화해 갈지를 추정할 수 있게 해준다.
예를 들면, 환경 모델은 현재 상태와 그에 따라 취해지는 행동으로붜 다음 상태와 보상을 예측한다. 모델은 계획을 위해 사용되는데, 계획이란 미래의 상황을 실제로 경험하기 전에 가능성만을 고려하여 일련의 행동을 결정하는 방법을 의미한다.
모델과 계획을 사용하여 강화학습의 문제를 해결하는 방법을 모델 기반 방법이라고 한다. 이에 반대되는 개념으로 모델없는 방법도 있다.
현대의 강화학습은 ㄱ시행착오로부터 학습하는 낮은 수준에서부터 심도 깊은 계획을 하는 높은 수준까지의 모든 것을 아우른다.
'단단한 강화학습' 카테고리의 다른 글
2. 다중 선택 - 평가 훈련 정보의 사용, (0) | 2023.06.17 |
---|---|
1.5 확장된 예제 : 틱택토 (0) | 2023.06.16 |
1.2 예제 (0) | 2023.06.16 |
1.1 강화학습 (0) | 2023.06.16 |
01 소개 (0) | 2023.06.16 |