프로그래밍 공부

2024/06 53

카테고리 설명
  • Discrete Action Space 에이전트가 취할 수 있는 행동이 n개의 행동중에 한개로 나누어 떨어지는 문제정의이다. 예를들어, 왼쪽 오른쪽 위 아래로 이동한다는 행동 4가지가 있을 때, 행동을 무조건 1개 선택해서 진행해야 한다고 하면. 위 또는 아래 오른쪽 왼쪽으로 이동하는 결과 한개가 나타나는걸 말한다. A = [ 왼쪽, 위, 오른쪽, 아래 ]Continuous Action Space 에이전트가 취할 수 있는 행동이 연속된 값을 선택하는 문제 정의 이다. 예를 들어, 로봇의 팔 관절이 몇도의 각도로 움직여야 할 지를 결정하는 문제는 Continuous Action Space이다. A = 0 ~ 360(팔각도)

  • On-Policy 지금 수집한 경험을 이용해서 갱신목표로 하는 정책을 개선하는 학습 방법론. 즉, 수집한 경험만을 이용해서 학습 Off-Policy 지금 수집한 경험과 과거 혹은 다른 데이터에서 수집한 경험을 모두 이용해서 갱신 목표로 하는 정책을 개선하는 학습 방법론, 즉 과거에 수집한 경험도 재활용할 수 있다.Off-Policy방법으로 학습할경우 한번 수집한 경험을 여러번 활용할 수 있어서 더효율적으로 학습이 가능하다. SARSA는 On-Policy Q-Learning 은 Off-Policy

  • 내가 어떠한 상태에서 취할 수 있는 행동의 확률을 구하는 것을 행동가치 라고 하는데, 이걸 구하는 함수를 추정하는 방식을 알아보자. 행동가치함수 는 어떤 상태에서 취한 행동의 좋고 나쁨을 평가한다. 상태가치 함수를 추정하는 대표적인 알고리즘은 다음과 같다. MC(Monte-Carlo) MethodSARSAQ-Learning MC(Monte-Carlo) Method MC알고리즘은 실제 에피소드가 끝날 때 까지 한번의 경험을 수집한 뒤 해당 값으로 Q값을 갱신하는 추정 알고리즘이다. $ Q_{\pi}(s, a) = R_{t+1} + \gamma R_{t+2} + \gamma ^{2}R_{t+3} + ... $ MC Method알고리즘의 단점은 한번의 Q값을 갱신하기 위해 에피소드가 끝날 때 까지 기다려야한다..

  • ImageAiCon PP진행중Unreal의 ImageAI공부하기알고리즘 관련 강의 학습사전지식더보기https://inradestrt.tistory.com/685 강화학습머신러닝 알고리즘의 3가지 분류 Supervised Learning  :인풋 데이터와 그에 대한 정답 쌍(x, y)를 이용해서 학습하는 방법론Unsupervised Learning : 인풋 데이터 (x)만을 이용해서 데이터의 숨겨진 특징을inradestrt.tistory.comhttps://inradestrt.tistory.com/686 MP(Markov Process)MP(Markov Process)MP는 상태s 와 상태 전이(state trainsition)확률 $ P_{ss'} $ 로 구성된 환경이다. $ MP(Markov Proce..

  • Grid-World는 강화학습의 개념을 설명하기 위해 자주 사용되는 대표적인 예제 환경이다. Goal지점이 출구인 미로-그리드월드(Grid World)-에 갖혀있다고 가정하자. 학습가중치의 기본조건은 다음과 같다.에이전트가 이동해서 출구인 Goal지점에 도달할 경우 100점의 보상(Reward)를 얻고 그 외의 지점에서는 0의 보상(Rward)를 얻는다.Gaol에 도달했을 경우에만 100을 얻는다. 따라서 우리의 최종 목표는 최대한 적은 횟수의 이동을 통해 Goal에 도달해 미로를 탈출하는 것이다. Grid-World에서 계산을 통해 구한 최적의 행동가치 함수는 다음과 같다.최적의 상태가치 함수는 다음과 같다. 최적의 정책즉, 상태가치 함수와 행동 가치 함수에 대한것 은 최적의 정책$ \pi $ 을 찾는..

    알고리즘

    Grid-World NEW

    2024.06.24
    댓글
  • MRP(Markov Reward Process) MRP(Markov Reward Process) 는 Markov Process(MP) 에 보상 R과 Discount Factor $ \gamma $ 가 추가된 형태이다. $ MRP(Markov Reward Process) = $ 어떤 상태에 도달함에 따른 보상 R이 주어지고 각각의 보상은 시간에 따른 Discount Factor $ \gamma $에 의해 점차적으로 감쇠된다.MDP(Markov Decision Process)MDP(Markov Decision Process)는 Markov Reward Process(MRP)에 행동 a가 추가된 형태이다. $ MRP(Markov Reward Process) = $상태와 행동의 판단 Markov Decisi..