프로그래밍 공부
카테고리
작성일
2024. 6. 24. 00:16
작성자
WDmil
728x90

강화학습 알고리즘을 구성하는 요소 기호

 

  1. 시간 t의 상태 $ S_{t} $
  2. 시간 t의 행동 $ A_{t} $
  3. 시간 s의 행동 a의 행동 가치 함수 $ Q_{\pi}(s, a) $
  4. 정책 $ \pi $
  5. 파라미터 $\ theta $
  6. 보상 R
  7. Discount Factor $ \gamma $
  8. Epsilon Greedy $ \epsilon $

강화학습 환경은 MDP라고 볼 수 있다.

 

MDP는 순차적인 의사결정 과정으로 써 수학적으로는 $ < S, A, P, R, \gamma> $집합 으로 구성된다.

  • S 는 state들의 집합
  • A는 action들의 집합
  • P는 trainsition probability 행렬이다. $ P_{ss'}^{a} = P[S_{t+1} = s'|S_{t} = s, A_{t} = a] $
    특정 액션에서 다음 임의의 다음 액션으로 넘어갈 확률
  • R은 리워드 함수이다. $ R_{s}^{a} = E[R_{t+1}|S_{t} = s, A_{t} = a] $
  • $ \gamma $ 은 Discount Factor이다. $\gamma \in [0,1] $
    미래 보상에 대한 감쇄

MDP는 다음과 같은 발전과정을 가진다.

  1. Markov Process(MP)
  2. Markov Reward Process(MRP)
  3. Markov Decision Process(MDP)

 

728x90

'알고리즘' 카테고리의 다른 글

Grid-World  (0) 2024.06.24
MRP(Markov Reward Process) & MDP(Markov Decision Process)  (0) 2024.06.24
MP(Markov Process)  (0) 2024.06.24
강화학습  (0) 2024.06.23
TensorFlow 2.0 파라미터 저장 & 불러오기  (0) 2024.06.21