프로그래밍 공부
카테고리
작성일
2024. 6. 27. 23:25
작성자
WDmil
728x90

강화 학습 알고리즘은 학습을 위한 데이터가 에이전트가 어떤 행동을 하느냐에 따라 달라진다.

 

따라서 강화학습 알고리즘은 데이터를 잘 수집하는 문제와 알고리즘을 잘 업데이트 하는 문제를 모두 고려해야 한다.

 

이때 Exploration and Expoitation Trade-off문제가 발생한다.

 

Exploration : 학습을 위해 수집하는 Sample의 다양성을 위해 모험적인 Action을 취하는것 = 미래의 이익을 최대화

Exploitaiton : 최적의 Action을 취하는것 = 현재의 이익을 최대

728x90

'알고리즘' 카테고리의 다른 글

TensorFlow DQN Agent 구현  (0) 2024.06.28
DQN(Deep - Q - Networks)  (0) 2024.06.28
$ \epsilon - Greedy $  (0) 2024.06.27
Discrete Action Space & Continuous Action Space  (0) 2024.06.26
On-Policy & Off-Policy  (0) 2024.06.26