2024/06/24 5
-
ImageAiCon PP진행중Unreal의 ImageAI공부하기알고리즘 관련 강의 학습사전지식더보기https://inradestrt.tistory.com/685 강화학습머신러닝 알고리즘의 3가지 분류 Supervised Learning :인풋 데이터와 그에 대한 정답 쌍(x, y)를 이용해서 학습하는 방법론Unsupervised Learning : 인풋 데이터 (x)만을 이용해서 데이터의 숨겨진 특징을inradestrt.tistory.comhttps://inradestrt.tistory.com/686 MP(Markov Process)MP(Markov Process)MP는 상태s 와 상태 전이(state trainsition)확률 $ P_{ss'} $ 로 구성된 환경이다. $ MP(Markov Proce..
-
Grid-World는 강화학습의 개념을 설명하기 위해 자주 사용되는 대표적인 예제 환경이다. Goal지점이 출구인 미로-그리드월드(Grid World)-에 갖혀있다고 가정하자. 학습가중치의 기본조건은 다음과 같다.에이전트가 이동해서 출구인 Goal지점에 도달할 경우 100점의 보상(Reward)를 얻고 그 외의 지점에서는 0의 보상(Rward)를 얻는다.Gaol에 도달했을 경우에만 100을 얻는다. 따라서 우리의 최종 목표는 최대한 적은 횟수의 이동을 통해 Goal에 도달해 미로를 탈출하는 것이다. Grid-World에서 계산을 통해 구한 최적의 행동가치 함수는 다음과 같다.최적의 상태가치 함수는 다음과 같다. 최적의 정책즉, 상태가치 함수와 행동 가치 함수에 대한것 은 최적의 정책$ \pi $ 을 찾는..
-
MRP(Markov Reward Process) MRP(Markov Reward Process) 는 Markov Process(MP) 에 보상 R과 Discount Factor $ \gamma $ 가 추가된 형태이다. $ MRP(Markov Reward Process) = $ 어떤 상태에 도달함에 따른 보상 R이 주어지고 각각의 보상은 시간에 따른 Discount Factor $ \gamma $에 의해 점차적으로 감쇠된다.MDP(Markov Decision Process)MDP(Markov Decision Process)는 Markov Reward Process(MRP)에 행동 a가 추가된 형태이다. $ MRP(Markov Reward Process) = $상태와 행동의 판단 Markov Decisi..
-
강화학습 알고리즘을 구성하는 요소 기호 시간 t의 상태 $ S_{t} $시간 t의 행동 $ A_{t} $시간 s의 행동 a의 행동 가치 함수 $ Q_{\pi}(s, a) $정책 $ \pi $파라미터 $\ theta $보상 RDiscount Factor $ \gamma $Epsilon Greedy $ \epsilon $강화학습 환경은 MDP라고 볼 수 있다. MDP는 순차적인 의사결정 과정으로 써 수학적으로는 $ $집합 으로 구성된다.S 는 state들의 집합A는 action들의 집합P는 trainsition probability 행렬이다. $ P_{ss'}^{a} = P[S_{t+1} = s'|S_{t} = s, A_{t} = a] $특정 액션에서 다음 임의의 다음 액션으로 넘어갈 확률R은 리워드 함수..
-
MP(Markov Process)MP는 상태s 와 상태 전이(state trainsition)확률 $ P_{ss'} $ 로 구성된 환경이다. $ MP(Markov Process) = $ 예를 들어 아래 MP(MarkovProcess)는 맑음 $ s_{1} $ 과 흐림 $ s_{2} $ 2가지 상태로 구성된다. Markov Process는 markov Property를 따른다. MarkovProperty는 다음 상태를 결정하는데 오직 바로 이전 상태만 고려한다는 가정이다.$ P[s_{t}|s_{t}] = P[s_{t+1}|s_{1},s_{2}, ... , s_{t}] $ 즉, 바로 이전 상태 이전에 어떤 상황을 거쳐서 현재 상태에 도달했든 $ (s_{1}, s_{2}, s_{2}, s_{1} = s_{2..