Loading [MathJax]/jax/output/CommonHTML/jax.js
프로그래밍 공부
카테고리
작성일
2024. 6. 24. 00:16
작성자
WDmil
728x90

강화학습 알고리즘을 구성하는 요소 기호

 

  1. 시간 t의 상태 St
  2. 시간 t의 행동 At
  3. 시간 s의 행동 a의 행동 가치 함수 Qπ(s,a)
  4. 정책 π
  5. 파라미터  theta
  6. 보상 R
  7. Discount Factor γ
  8. Epsilon Greedy ϵ

강화학습 환경은 MDP라고 볼 수 있다.

 

MDP는 순차적인 의사결정 과정으로 써 수학적으로는 <S,A,P,R,γ>집합 으로 구성된다.

  • S 는 state들의 집합
  • A는 action들의 집합
  • P는 trainsition probability 행렬이다. Pass=P[St+1=s|St=s,At=a]
    특정 액션에서 다음 임의의 다음 액션으로 넘어갈 확률
  • R은 리워드 함수이다. Ras=E[Rt+1|St=s,At=a]
  • γ 은 Discount Factor이다. γ[0,1]
    미래 보상에 대한 감쇄

MDP는 다음과 같은 발전과정을 가진다.

  1. Markov Process(MP)
  2. Markov Reward Process(MRP)
  3. Markov Decision Process(MDP)

 

728x90

'알고리즘' 카테고리의 다른 글

Grid-World  (0) 2024.06.24
MRP(Markov Reward Process) & MDP(Markov Decision Process)  (0) 2024.06.24
MP(Markov Process)  (0) 2024.06.24
강화학습  (0) 2024.06.23
TensorFlow 2.0 파라미터 저장 & 불러오기  (0) 2024.06.21