728x90
강화학습 알고리즘을 구성하는 요소 기호
- 시간 t의 상태 St
- 시간 t의 행동 At
- 시간 s의 행동 a의 행동 가치 함수 Qπ(s,a)
- 정책 π
- 파라미터 theta
- 보상 R
- Discount Factor γ
- Epsilon Greedy ϵ
강화학습 환경은 MDP라고 볼 수 있다.
MDP는 순차적인 의사결정 과정으로 써 수학적으로는 <S,A,P,R,γ>집합 으로 구성된다.
- S 는 state들의 집합
- A는 action들의 집합
- P는 trainsition probability 행렬이다. Pass′=P[St+1=s′|St=s,At=a]
특정 액션에서 다음 임의의 다음 액션으로 넘어갈 확률 - R은 리워드 함수이다. Ras=E[Rt+1|St=s,At=a]
- γ 은 Discount Factor이다. γ∈[0,1]
미래 보상에 대한 감쇄
MDP는 다음과 같은 발전과정을 가진다.
- Markov Process(MP)
- Markov Reward Process(MRP)
- Markov Decision Process(MDP)
728x90
'알고리즘' 카테고리의 다른 글
Grid-World (0) | 2024.06.24 |
---|---|
MRP(Markov Reward Process) & MDP(Markov Decision Process) (0) | 2024.06.24 |
MP(Markov Process) (0) | 2024.06.24 |
강화학습 (0) | 2024.06.23 |
TensorFlow 2.0 파라미터 저장 & 불러오기 (0) | 2024.06.21 |