On-Policy & Off-Policy

카테고리

작성일

2024. 6. 26. 02:23

작성자

WDmil

728x90

On-Policy

지금 수집한 경험을 이용해서 갱신목표로 하는 정책을 개선하는 학습 방법론. 즉, 수집한 경험만을 이용해서 학습

지금 수집한 경험과 과거 혹은 다른 데이터에서 수집한 경험을 모두 이용해서 갱신 목표로 하는 정책을 개선하는 학습 방법론, 즉 과거에 수집한 경험도 재활용할 수 있다.

Off-Policy방법으로 학습할경우 한번 수집한 경험을 여러번 활용할 수 있어서 더효율적으로 학습이 가능하다.

SARSA는 On-Policy

Q-Learning 은 Off-Policy

728x90

$\epsilon - Greedy$ (0)	2024.06.27
Discrete Action Space & Continuous Action Space (0)	2024.06.26
행동가치함수 추정하기 (0)	2024.06.26
Grid-World (0)	2024.06.24
MRP(Markov Reward Process) & MDP(Markov Decision Process) (0)	2024.06.24

내 블로그 - 관리자 홈 전환	`Q` `Q`
새 글 쓰기	`W` `W`

글 수정 (권한 있는 경우)	`E` `E`
댓글 영역으로 이동	`C` `C`