알고리즘
Grid-World
WDmil
2024. 6. 24. 01:05
728x90
Grid-World는 강화학습의 개념을 설명하기 위해 자주 사용되는 대표적인 예제 환경이다.
Goal지점이 출구인 미로-그리드월드(Grid World)-에 갖혀있다고 가정하자.
학습가중치의 기본조건은 다음과 같다.
- 에이전트가 이동해서 출구인 Goal지점에 도달할 경우 100점의 보상(Reward)를 얻고 그 외의 지점에서는 0의 보상(Rward)를 얻는다.
- Gaol에 도달했을 경우에만 100을 얻는다.
따라서 우리의 최종 목표는 최대한 적은 횟수의 이동을 통해 Goal에 도달해 미로를 탈출하는 것이다.
Grid-World에서 계산을 통해 구한 최적의 행동가치 함수는 다음과 같다.
최적의 상태가치 함수는 다음과 같다.
최적의 정책
- 즉, 상태가치 함수와 행동 가치 함수에 대한것 은 최적의 정책$ \pi $ 을 찾는다고 볼 수 있다.
- 어떤 환경에서 모든 상태의 정확한 상태 가치 함수값 을 알아낸다면 항상 상태 가치가 최대화되는 방향으로 이동하는 것이 최적의 전략이 될 것이다.
- 반대로 어떤 환경에서 모든 행동의 정확한 행동 가치 함수 값을 알아낸다면 항상 행동 가치 함수가 최대화되는 방향으로 행동하는 것이 최적의 전략이 될 것이다.
- 이렇게 보상이 최대화되는 최적의 정책을 알아내는 방법은 크게 2가지가 있다.
- 상태 가치 함수를 이용해서 최적의 정책을 알아내는 방법을 Planning이라고 하고 행동 가치 함수를 이용해서 알아내는 방법을 강화학습(Reinforcement Learning)이라고 한다.
- Planing을 이용하기 위해서는 환경에 대한 모델(Model)정보를 알 고 있어야 한다. 좀 더 엄밀히 말하면 $ < S, A, P, R, \gamma > $ 에서 Trainsition Probability $ P(s, s') $ 에 대한 정보와 이에 대한 보상값 $ R(s, s') $을 알 고 있어야 한다.
- 행동 가치 함수를 이용한 강화 학습 방법은 모델에 대한 정보가 없더라도 에이전트가 주어진 환경에서 행동을 취하고 얻은 실제 경험(Experience)을 통해 학습을 진행할 수 있다.
- 강화 학습에서 적절한 행동 가치 함수 값을 알아내기 위한 구체적인 알고리즘은 SARSA, Q-Learning, Policy Gradient 등이 있다.
728x90