728x90
MP(Markov Process)
MP는 상태s 와 상태 전이(state trainsition)확률 로 구성된 환경이다.
예를 들어 아래 MP(MarkovProcess)는 맑음 과 흐림 2가지 상태로 구성된다.
![](http://t1.daumcdn.net/tistory_admin/static/images/no-image-v1.png)
Markov Process는 markov Property를 따른다. MarkovProperty는
다음 상태를 결정하는데 오직 바로 이전 상태만 고려한다는 가정
이다.
즉, 바로 이전 상태 이전에 어떤 상황을 거쳐서 현재 상태에 도달했든 현재 상태 만을 기준으로 미래의 상태 변화를 예측한다는 가정이다.
728x90
'알고리즘' 카테고리의 다른 글
MRP(Markov Reward Process) & MDP(Markov Decision Process) (0) | 2024.06.24 |
---|---|
강화학습 알고리즘 기초개요 (0) | 2024.06.24 |
강화학습 (0) | 2024.06.23 |
TensorFlow 2.0 파라미터 저장 & 불러오기 (0) | 2024.06.21 |
TensworFlow 2.0을 이용한 Char-RNN구현 (0) | 2024.06.20 |