알고리즘

MRP(Markov Reward Process) & MDP(Markov Decision Process)

WDmil 2024. 6. 24. 00:52
728x90

MRP(Markov Reward Process)

 

MRP(Markov Reward Process) 는 Markov Process(MP) 에 보상 R과 Discount Factor $ \gamma $ 가 추가된 형태이다.

 

$ MRP(Markov Reward Process) = < S, P, R, \gamma > $

 

어떤 상태에 도달함에 따른 보상 R이 주어지고 각각의 보상은 시간에 따른 Discount Factor $ \gamma $에 의해 점차적으로 감쇠된다.


MDP(Markov Decision Process)

MDP(Markov Decision Process)는 Markov Reward Process(MRP)에 행동 a가 추가된 형태이다.

 

$ MRP(Markov Reward Process) = < S, A, P, R, \gamma > $


상태와 행동의 판단

 

Markov Decision Process문제에서 적절한 판단을 내리기 위해서는 어떤 행동 a가 좋은 행동인지 어떤 상태 s가 좋은 상태인지 판단해서 좋은 행동과 좋은 상태를 추구해야 한다.


따라서, 행동과 상태에 따른 좋고 나쁨의 판단이 필요하다.

 

행동과 상태의 좋고 나쁨을 추정하기 위해
상태 가치 함수(State-Value Function)행동 가치 함수(Action-Value Funtion)을 사용한다.


상태 가치 함수

상태 가치 함수(State-Value Function)은 어떤 상태의 좋고/ 나쁨을 평가한다. 상태가치 함수를 수학적으로 표현하면 다음과 같다.

$ V_{\pi}(s) = E_{\pi}[R_{t+1} + \gamma R_{t+2} + \gamma^{2} R_{t+2} + ... |S_{t} = s] $

수식은 다음과 같다.

 

  • 어떤 시간 t에서 전략 $ \pi $를 따를 때 기대되는( $ E_{\pi} -nondeterministic $ 일 경우 평균-) 어떤 상태 $ s(V_{\pi}(s), S_{t} = s) $의 가치는 미래 보상들의 총합 $ ( R_{t+1} + \gamma R_{t+2} + \gamma^{2} R_{t+2} + ... ) $ 으로 표현된다.
  • 여기서 $ \gamma $(감마) 는 Discount Factor이다. $ \gamma $는 보통 0에서 1 사이의 값을 부여한다.
  • 이때의 장점은 빨리 최적의 행동을 결정할 수 있다는 점이다. $ \gamma $가 1이라면 미래의 보상도 바로 다음의 보상만큼 중요하게 생각하게 된다. 이 경우, 당장의 보상은 최대화 할 수 없지만 미래의 수 까지 내다보면서 행동할 수 있다는 장점이 있다.
  • 실제 상황에서는 문제에 따라 최적의 $ \gamma $ 가 다르고, 실험을 통해 최적의 $ \gamma $값을 설정해주어야 한다.

행동 가치 함수

행동 가치 함수(Action-Value Function)은 어떤 상태에서 취한 행동의 좋고/나쁨을 평가한다. 상태 가치 함수를 수학적으로 표현하면 다음과 같다.

 

$ Q_{\pi}(s, a) = E_{\pi}[R_{t+1} + \gamma R_{t+2} + \gamma^{2} R_{t+2} + ... |S_{t} = s, A_{t} = a] $

 

수식은 다음과 같다.

 

어떤시간 t에서 전략 $ \pi $를 따를 때 기대되는($ E_{\pi} -nondeterministic $ 일 경우 평균-) 어떤 상태 $ s(S_{t} = s) $ 에서 어떤 행동 $ (A_{t} = a) $ 을 했을 때의 가치 $ (Q_{\pi}(s, a)) $ 가치는 미래 보상들의 총합 $ ( R_{t+1} + \gamma R_{t+2} + \gamma^{2} R_{t+2} + ...) $ 으로 표현된다.

 

 

728x90