알고리즘

On-Policy & Off-Policy

WDmil 2024. 6. 26. 02:23
728x90

On-Policy

 

지금 수집한 경험을 이용해서 갱신목표로 하는 정책을 개선하는 학습 방법론. 즉, 수집한 경험만을 이용해서 학습

 

Off-Policy

 

지금 수집한 경험과 과거 혹은 다른 데이터에서 수집한 경험을 모두 이용해서 갱신 목표로 하는 정책을 개선하는 학습 방법론, 즉 과거에 수집한 경험도 재활용할 수 있다.


Off-Policy방법으로 학습할경우 한번 수집한 경험을 여러번 활용할 수 있어서 더효율적으로 학습이 가능하다.

 

SARSA는 On-Policy

 

Q-Learning 은 Off-Policy

728x90