프로그래밍 공부
카테고리
작성일
2024. 6. 26. 02:23
작성자
WDmil
728x90

On-Policy

 

지금 수집한 경험을 이용해서 갱신목표로 하는 정책을 개선하는 학습 방법론. 즉, 수집한 경험만을 이용해서 학습

 

Off-Policy

 

지금 수집한 경험과 과거 혹은 다른 데이터에서 수집한 경험을 모두 이용해서 갱신 목표로 하는 정책을 개선하는 학습 방법론, 즉 과거에 수집한 경험도 재활용할 수 있다.


Off-Policy방법으로 학습할경우 한번 수집한 경험을 여러번 활용할 수 있어서 더효율적으로 학습이 가능하다.

 

SARSA는 On-Policy

 

Q-Learning 은 Off-Policy

728x90

'알고리즘' 카테고리의 다른 글

$ \epsilon - Greedy $  (0) 2024.06.27
Discrete Action Space & Continuous Action Space  (0) 2024.06.26
행동가치함수 추정하기  (0) 2024.06.26
Grid-World  (0) 2024.06.24
MRP(Markov Reward Process) & MDP(Markov Decision Process)  (0) 2024.06.24