알고리즘
On-Policy & Off-Policy
WDmil
2024. 6. 26. 02:23
728x90
On-Policy
지금 수집한 경험을 이용해서 갱신목표로 하는 정책을 개선하는 학습 방법론. 즉, 수집한 경험만을 이용해서 학습
Off-Policy
지금 수집한 경험과 과거 혹은 다른 데이터에서 수집한 경험을 모두 이용해서 갱신 목표로 하는 정책을 개선하는 학습 방법론, 즉 과거에 수집한 경험도 재활용할 수 있다.
Off-Policy방법으로 학습할경우 한번 수집한 경험을 여러번 활용할 수 있어서 더효율적으로 학습이 가능하다.
SARSA는 On-Policy
Q-Learning 은 Off-Policy
728x90