알고리즘
강화학습 알고리즘 기초개요
WDmil
2024. 6. 24. 00:16
728x90
강화학습 알고리즘을 구성하는 요소 기호
- 시간 t의 상태 $ S_{t} $
- 시간 t의 행동 $ A_{t} $
- 시간 s의 행동 a의 행동 가치 함수 $ Q_{\pi}(s, a) $
- 정책 $ \pi $
- 파라미터 $\ theta $
- 보상 R
- Discount Factor $ \gamma $
- Epsilon Greedy $ \epsilon $
강화학습 환경은 MDP라고 볼 수 있다.
MDP는 순차적인 의사결정 과정으로 써 수학적으로는 $ < S, A, P, R, \gamma> $집합 으로 구성된다.
- S 는 state들의 집합
- A는 action들의 집합
- P는 trainsition probability 행렬이다. $ P_{ss'}^{a} = P[S_{t+1} = s'|S_{t} = s, A_{t} = a] $
특정 액션에서 다음 임의의 다음 액션으로 넘어갈 확률 - R은 리워드 함수이다. $ R_{s}^{a} = E[R_{t+1}|S_{t} = s, A_{t} = a] $
- $ \gamma $ 은 Discount Factor이다. $\gamma \in [0,1] $
미래 보상에 대한 감쇄
MDP는 다음과 같은 발전과정을 가진다.
- Markov Process(MP)
- Markov Reward Process(MRP)
- Markov Decision Process(MDP)
728x90