강화학습 알고리즘 기초개요

카테고리

작성일

2024. 6. 24. 00:16

작성자

WDmil

728x90

강화학습 알고리즘을 구성하는 요소 기호

MDP는 순차적인 의사결정 과정으로 써 수학적으로는 $< S, A, P, R, \gamma>$ 집합 으로 구성된다.

S 는 state들의 집합
A는 action들의 집합
P는 trainsition probability 행렬이다. $P_{ss'}^{a} = P[S_{t+1} = s'|S_{t} = s, A_{t} = a]$
특정 액션에서 다음 임의의 다음 액션으로 넘어갈 확률
R은 리워드 함수이다. $R_{s}^{a} = E[R_{t+1}|S_{t} = s, A_{t} = a]$
$\gamma$ 은 Discount Factor이다. $\gamma \in [0,1]$
미래 보상에 대한 감쇄

728x90

Grid-World (0)	2024.06.24
MRP(Markov Reward Process) & MDP(Markov Decision Process) (0)	2024.06.24
MP(Markov Process) (0)	2024.06.24
강화학습 (0)	2024.06.23
TensorFlow 2.0 파라미터 저장 & 불러오기 (0)	2024.06.21

내 블로그 - 관리자 홈 전환	`Q` `Q`
새 글 쓰기	`W` `W`

글 수정 (권한 있는 경우)	`E` `E`
댓글 영역으로 이동	`C` `C`