Optimal Policy
최적정책이라는 말로, 행동을 더 효과적으로 가장 최선의 결과를 내도록 하는 알고리즘 이라고 생각하면 된다.
이러한 최적정책은 다양한 알고리즘이 존재하지만, 이러한 최적정책을 판별하는 도구로, 상태 가치함수와 행동 가치함수가 있다.
즉, 지금으로부터 기대되는 Return을 최대화 시키는것
과거에서는 지금까지 잘했다 치고 지금부터 미래를 본다고 이해하면 된다.
Return Gt = Rt + 감마 * Rt+1 + 감마^2 * Rt+2...
모든 가능한 경우의 수를 전부 더해서 평균내보는것.
$ E\left [f(x) \right ] = \int f(x)P(x)dx $
가치함수
가치함수는 상태 가치함수, 행동 가치함수 두가지로 나뉜다.
각각 우선하는 사항이 다르며, 이는 다음과 같다.
State Value Function
지금부터 기대되는 Return
현재 상태에 대한 평가를 내리는것
특정 상태의 가치를 평가한다.
임의의 상태값에 따른 모든 행동을 고려하였을 때, 기대할 수 있는 모든 총 보상의 현재가치 를 의미한다.
$ V(s_{t}) _{=}^{\triangle} \int _{a_{t}:a_{\infty }}G_{t}P(a_{t},S_{t+1},a_{t+1}\cdots |S_{t})da_{t}:a_{\infty} $
가능한 스테이트 에서 전부 접근을 해보았을 때 나오는 현재 상태에서 기대되는 리턴.
Action Value Funtion
지금 행동으로부터 기대되는 Return
특정 상태에서 특정 행동의 가치를 평가한다.
임의의 특정 행동을 선택한 후, 그 행동이 주는 즉각적 보상과 이후 상태에 대해 정책을 따랐을 때 기대할 수 있는 총 보상의 현재 가치를 의미한다.
Action Value Funtion
$ Q(s_{t}, a_{t})_{=}^{\triangle }\int_{S_{t+1} : a_{\infty }}G_{t}P(S_{t+1},a_{t+1},S_{t+2},a_{t+2},\cdots|S_{t},a_{t})dS_{t+1}:a_{\infty } $
임의의 액션을 선택했을 때, 주어진 정책상 기대할 수 있는 전체보상의 현재가치.
위와같이 상태값을 판단해서 Maximize하는것이 Optimal Policy이다,
'알고리즘' 카테고리의 다른 글
Batch Gradient Desent, Stochastic Gradient Descent, Mini-Batch Gradient Desent (1) | 2024.06.13 |
---|---|
머신러닝 프로세스 ( 선형회귀 ) (0) | 2024.06.13 |
MDP ( Markov Decision Process ) (1) | 2024.06.09 |
Greedy Action으로 알아보는 Q-Learning (0) | 2024.06.07 |
Quick Sort 알고리즘 (0) | 2024.05.15 |