728x90
MP(Markov Process)
MP는 상태s 와 상태 전이(state trainsition)확률 Pss′ 로 구성된 환경이다.
MP(MarkovProcess)=<S,P>
예를 들어 아래 MP(MarkovProcess)는 맑음 s1 과 흐림 s2 2가지 상태로 구성된다.

Markov Process는 markov Property를 따른다. MarkovProperty는
다음 상태를 결정하는데 오직 바로 이전 상태만 고려한다는 가정
이다.
P[st|st]=P[st+1|s1,s2,...,st]
즉, 바로 이전 상태 이전에 어떤 상황을 거쳐서 현재 상태에 도달했든 (s1,s2,s2,s1=s2,s1,s1,s1=s2,s2,s2,s1) 현재 상태 (st) 만을 기준으로 미래의 상태 변화를 예측한다는 가정이다.
728x90
'알고리즘' 카테고리의 다른 글
MRP(Markov Reward Process) & MDP(Markov Decision Process) (0) | 2024.06.24 |
---|---|
강화학습 알고리즘 기초개요 (0) | 2024.06.24 |
강화학습 (0) | 2024.06.23 |
TensorFlow 2.0 파라미터 저장 & 불러오기 (0) | 2024.06.21 |
TensworFlow 2.0을 이용한 Char-RNN구현 (0) | 2024.06.20 |