프로그래밍 공부
카테고리
작성일
2024. 6. 24. 01:05
작성자
WDmil
728x90

Grid-World는 강화학습의 개념을 설명하기 위해 자주 사용되는 대표적인 예제 환경이다.

 

Goal지점이 출구인 미로-그리드월드(Grid World)-에 갖혀있다고 가정하자.

 

학습가중치의 기본조건은 다음과 같다.

  • 에이전트가 이동해서 출구인 Goal지점에 도달할 경우 100점의 보상(Reward)를 얻고 그 외의 지점에서는 0의 보상(Rward)를 얻는다.
  • Gaol에 도달했을 경우에만 100을 얻는다.

 

따라서 우리의 최종 목표는 최대한 적은 횟수의 이동을 통해 Goal에 도달해 미로를 탈출하는 것이다.

 


Grid-World에서 계산을 통해 구한 최적의 행동가치 함수는 다음과 같다.

최적의 상태가치 함수는 다음과 같다.

 


최적의 정책

  • 즉, 상태가치 함수와 행동 가치 함수에 대한것 은 최적의 정책$ \pi $ 을 찾는다고 볼 수 있다.

 

  • 어떤 환경에서 모든 상태의 정확한 상태 가치 함수값 을 알아낸다면 항상 상태 가치가 최대화되는 방향으로 이동하는 것이 최적의 전략이 될 것이다.

 

  • 반대로 어떤 환경에서 모든 행동의 정확한 행동 가치 함수 값을 알아낸다면 항상 행동 가치 함수가 최대화되는 방향으로 행동하는 것이 최적의 전략이 될 것이다.

 

  • 이렇게 보상이 최대화되는 최적의 정책을 알아내는 방법은 크게 2가지가 있다.

 

  • 상태 가치 함수를 이용해서 최적의 정책을 알아내는 방법을 Planning이라고 하고 행동 가치 함수를 이용해서 알아내는 방법을 강화학습(Reinforcement Learning)이라고 한다.

 

  • Planing을 이용하기 위해서는 환경에 대한 모델(Model)정보를 알 고 있어야 한다. 좀 더 엄밀히 말하면 $ < S, A, P, R, \gamma > $ 에서 Trainsition Probability $ P(s, s') $ 에 대한 정보와 이에 대한 보상값 $ R(s, s') $을 알 고 있어야 한다.

 

  • 행동 가치 함수를 이용한 강화 학습 방법은 모델에 대한 정보가 없더라도 에이전트가 주어진 환경에서 행동을 취하고 얻은 실제 경험(Experience)을 통해 학습을 진행할 수 있다.

 

  • 강화 학습에서 적절한 행동 가치 함수 값을 알아내기 위한 구체적인 알고리즘은 SARSA, Q-Learning, Policy Gradient 등이 있다.
728x90

'알고리즘' 카테고리의 다른 글

On-Policy & Off-Policy  (0) 2024.06.26
행동가치함수 추정하기  (0) 2024.06.26
MRP(Markov Reward Process) & MDP(Markov Decision Process)  (0) 2024.06.24
강화학습 알고리즘 기초개요  (0) 2024.06.24
MP(Markov Process)  (0) 2024.06.24