728x90
Q-Learning 및 강화학습을 적용할 때 보통 $ \epsilon - Greedy $ 라는 기법을 함께 적용한다.
에이전트가 항상 최대 Q값으로 행동하게 되면 데이터 수집과정에서 다양성이 감소하고 이로인해 최대 학습 결과가 Local Optima에 빠질 확률이 높아진다.
따라서 $ \epsilon - Greedy $ 기법은 에이전트가 $ \epsilon $ 확률로 최적의 행동이 아닌 랜덤한 행동을 하게 하고, 다시 $ ( 1 - \epsilon ) $ 확률로 최적의 행동을 하게 함으로써 에이전트가 다양한 상태를 경험하고 수집할 수 있게 한다.
결과적으로 학습이 끝난 후에 더 좋은 성능을 발휘할 수 있다. 하지만 계속해서 랜덤한 행동을 하도록 할 수는 없음으로 학습 초반에는 $ \epsilon $ 값을 크게 설정했다가 학습이 진행될 수록 점차 $ \epsilon $ 값을 감소시켜 준다.
$ \pi(a|s) = \left\{\begin{matrix}
1 - \epsilon & ifa^{*} = \underset{a\epsilon A}{argmaxA(s, a)} \\
& \epsilon \\
\end{matrix}\right. $
728x90
'알고리즘' 카테고리의 다른 글
DQN(Deep - Q - Networks) (0) | 2024.06.28 |
---|---|
Exploration & Exploitation Trade-Off (0) | 2024.06.27 |
Discrete Action Space & Continuous Action Space (0) | 2024.06.26 |
On-Policy & Off-Policy (0) | 2024.06.26 |
행동가치함수 추정하기 (0) | 2024.06.26 |