본문 바로가기

단단한 강화학습

1.1 강화학습

강화 학습이란 주어진 상황에서 어떠한 행동을 취할지를 학습하는 것을 의미한다. 이때 그 행동의 결과는 최대한의 보상을 가져다주어야 하며, 그 보상 함순느 수치적으로 표현될 수 있어야 한다.

학습자 agent 는 어떤 행동을 취할지에 대한 어떠한 지침도 받지 ㅇ낳고 오로지 시행착오를 ㅗㅇ해 최대의 보상을 가져다주는 행동을 찾아내야만 한다. 

가장 흥미로우면서도 어려운 상황은 특정 행동이 그 행동에 직접적으로 영향을 받는 보상뿐만이 아니라. 그다음에 이어지는 상황에도 영향을 미침으로써 연속적으로 보상에 영향을 미치는 상황이다. 

시행착오와 지연된 보상이라는 특성은 강화학습을 다른 방법과 구분하는 가장 중요한 두 가지 특성이다.

 

강화학습은 하나의 문제이기도 하고, 그 문제를 잘 해결할 수 있는 방법이기도 하며, 그 문제와 해결 방법을 연구하는 분야이기도 하다. 

 

강화학습 문제를 동적 시스템 이론의 개념, 특히 불확실한 마르코브 결정 과정 Markov Decision Process 에 대한 최적 제어 이론을 활용하여 체계화, 

기본 아이디어는 목적을 위해 주변 환경과 상호작용하는 학습자가 직면하는 현실적인 문제의 가장 중요한 측면을 포착하는 것, 학습자는 주변 환경의 상태를 감지하고 그 상태에 영향을 주는 행동을 취할 수 있어야만 한다. 떠ㅗ한 주변 환경의 상태와 관련된 하나 이상의 목표를 가져야만 한다. 

가장 간단한 형태의 마르코프 결정 과정은 감지, 행동, 목표라는 세 가지 측면만을 포함한다.

 

강화학습이 비지도 학습과 구별되는 이유는, 강화학습은 보상을 최대로 만들기 위해 노력할 뿐 숨겨진 구조를 찾으려고 하지는 않는다. 학습자의 경험을 통해 숨겨진 구조를 찾는 것은 확실히 강화학습에도 도움이 된다. 하지만 그것만으로는 보상을 최대로 만드는 것을 목표로 하는 강화학습 문제를 풀지 못한다.

 

강화학습만이 갖는 어려운 점은 exploration 과 exploitation (탐험과 활용) 사이을 절충하는 일이다. 많은 보상을 얻기 위해 강화학습 학습자는 과거에 보상을 획득하는 데 있어 효과적이었던 행동들을 선호해야만 한다. 

하지만 그러한 효과적인 행동을 발견하려면 과거에 하지 않았던 행동들을 시도해 봐야 한다.

 

학습자는 보상을 얻기 위해 이미 경험한 행동들을 활용 exploitation 해야 하지만, 한편으로는 미래에 더 좋은 행동을 선택하기 위한 탐험 exploration 을 해야 한다. 

탐험과 활용 둘 중 하나만 추구한다면 목적을 이루지 못한다는 것이 문제다.

 

현재로서는 탐험과 활용 사이에 균형을 잡는 문제는 최소한 가장 순수한 혀애의 지도학습과 비지도학습에서는 발생하지 않는다고 말할 수 있을 뿐이다.

 

강화학습의 또 다른 핵심은 불확실한 주변 환경과 상호작용하는 목표 지향적인 학습자에 대한 모든 문제를 분명하게 고려한다는 점이다. 이것은 하위 여러 문제를 커다란 하나의 문제로 병합하는 방법을 제시하지 않은 채 하위 문제들만을 고려하는 다른 많은 방법과 구별되는 ㅡㄱ성이다.

 

강화학습은 상호작용을 하는 완전하고 목표 지향적인 학습자를 처음부터 고려한 사애로 시작한다는 점에서 정반대의 접근법을 취한다. 모든 강화학습 학습자는 분명한 목표가 있고, 주변 환경의 여러 측면을 감지할 수 있으며, 그 환경에 영향을 주기 위한 행동을 선택할 수 있다.

학습자는 자신이 마주한 환경이 불확실하다 하더라도 학습을 수행해야 한다는 사실을 인지한 상태로 학습을 시작한다. 강화학습에 계획을 활용할 때는 환경에 대한 모델을 도출하고 개선하는 방법을 알아야 할 뿐만 아니라. 계획과 행동이 실시간으로 상호작용하도록 해야 한다.

학습에 관한 연구가 발전하기 위해서는 중요한 하위 문제들을 구별하며 연구해야 한다. 비록 학습자에 대한 세부 사항들이 완전히 밝혀지지 않았을지라도 하위 문제들은 주변 환경과 상호작용하는 완전한 목표 지향적 학습자 내부에서 분명한 역할을 해야만 한다.

 

강화학습의 가장 흥미로운 현대적 특징 중 하나는 그것이 실질적이고 생산적인 상호작용을 한다는 것이다. 

파라미터를 통해 시스템을 모사할 수 있는 강화학습의 능력은 시스템 운영에 대한 연구 결과와 제어 이론에 내재해 있던 차원의 저주 문제를 해결한다. 

 

마지막으로, 강화학습은 간단하면서도 일반적인 원리를 탐구하고자 하는 인공지능 연구의 큰 경향성과도 부합한다. 

현대 인공지능 연구의 상당수는 학습과 ㅏㅁ색, 의사결정의 일반 원리를 찾으려고 노력한다. 

'단단한 강화학습' 카테고리의 다른 글

2. 다중 선택 - 평가 훈련 정보의 사용,  (0) 2023.06.17
1.5 확장된 예제 : 틱택토  (0) 2023.06.16
1.3 강화학습의 구성 요소  (0) 2023.06.16
1.2 예제  (0) 2023.06.16
01 소개  (0) 2023.06.16