프로그래밍 공부
카테고리
작성일
2024. 6. 9. 19:38
작성자
WDmil
728x90

Optimal Policy

 

최적정책이라는 말로, 행동을 더 효과적으로 가장 최선의 결과를 내도록 하는 알고리즘 이라고 생각하면 된다.

 

이러한 최적정책은 다양한 알고리즘이 존재하지만, 이러한 최적정책을 판별하는 도구로, 상태 가치함수와 행동 가치함수가 있다.

 

즉, 지금으로부터 기대되는 Return을 최대화 시키는것

과거에서는 지금까지 잘했다 치고 지금부터 미래를 본다고 이해하면 된다.

 

Return Gt = Rt + 감마 * Rt+1 + 감마^2 * Rt+2...

모든 가능한 경우의 수를 전부 더해서 평균내보는것.

 

$ E\left [f(x)  \right ] = \int f(x)P(x)dx $


가치함수

가치함수는 상태 가치함수, 행동 가치함수 두가지로 나뉜다.

각각 우선하는 사항이 다르며, 이는 다음과 같다.

 


State Value Function

 

지금부터 기대되는 Return

현재 상태에 대한 평가를 내리는것

 

특정 상태의 가치를 평가한다.

임의의 상태값에 따른 모든 행동을 고려하였을 때, 기대할 수 있는 모든 총 보상의 현재가치 를 의미한다.

 

$ V(s_{t}) _{=}^{\triangle} \int _{a_{t}:a_{\infty }}G_{t}P(a_{t},S_{t+1},a_{t+1}\cdots |S_{t})da_{t}:a_{\infty} $

 

가능한 스테이트 에서 전부 접근을 해보았을 때 나오는 현재 상태에서 기대되는 리턴.

 


Action Value Funtion

 

지금 행동으로부터 기대되는 Return

 

특정 상태에서 특정 행동의 가치를 평가한다.

임의의 특정 행동을 선택한 후, 그 행동이 주는 즉각적 보상과 이후 상태에 대해 정책을 따랐을 때 기대할 수 있는 총 보상의 현재 가치를 의미한다.

 

Action Value Funtion

$ Q(s_{t}, a_{t})_{=}^{\triangle }\int_{S_{t+1} : a_{\infty }}G_{t}P(S_{t+1},a_{t+1},S_{t+2},a_{t+2},\cdots|S_{t},a_{t})dS_{t+1}:a_{\infty } $

임의의 액션을 선택했을 때, 주어진 정책상 기대할 수 있는 전체보상의 현재가치.

 

 

 

위와같이 상태값을 판단해서 Maximize하는것이 Optimal Policy이다,

728x90