프로그래밍 공부
카테고리
작성일
2024. 6. 27. 22:38
작성자
WDmil
728x90

Q-Learning 및 강화학습을 적용할 때 보통 $ \epsilon - Greedy $ 라는 기법을 함께 적용한다.

 

에이전트가 항상 최대 Q값으로 행동하게 되면 데이터 수집과정에서 다양성이 감소하고 이로인해 최대 학습 결과가 Local Optima에 빠질 확률이 높아진다.

 

따라서 $ \epsilon - Greedy $ 기법은 에이전트가 $ \epsilon  $ 확률로 최적의 행동이 아닌 랜덤한 행동을 하게 하고, 다시 $ ( 1 - \epsilon ) $ 확률로 최적의 행동을 하게 함으로써 에이전트가 다양한 상태를 경험하고 수집할 수 있게 한다.

 

결과적으로 학습이 끝난 후에 더 좋은 성능을 발휘할 수 있다. 하지만 계속해서 랜덤한 행동을 하도록 할 수는 없음으로 학습 초반에는 $ \epsilon  $ 값을 크게 설정했다가 학습이 진행될 수록 점차 $ \epsilon  $ 값을 감소시켜 준다.

 

$ \pi(a|s) = \left\{\begin{matrix}
1 - \epsilon  & ifa^{*} = \underset{a\epsilon A}{argmaxA(s, a)} \\
 &  \epsilon \\
\end{matrix}\right. $

728x90

'알고리즘' 카테고리의 다른 글

DQN(Deep - Q - Networks)  (0) 2024.06.28
Exploration & Exploitation Trade-Off  (0) 2024.06.27
Discrete Action Space & Continuous Action Space  (0) 2024.06.26
On-Policy & Off-Policy  (0) 2024.06.26
행동가치함수 추정하기  (0) 2024.06.26