2024/06/26 4
-
ImageAiCon PP진행중Unreal의 ImageAI공부하기알고리즘 관련 강의 학습사전지식더보기https://inradestrt.tistory.com/691 행동가치함수 추정하기내가 어떠한 상태에서 취할 수 있는 행동의 확률을 구하는 것을 행동가치 라고 하는데, 이걸 구하는 함수를 추정하는 방식을 알아보자. 행동가치함수 는 어떤 상태에서 취한 행동의 좋고 나쁨inradestrt.tistory.comhttps://inradestrt.tistory.com/692 On-Policy & Off-PolicyOn-Policy 지금 수집한 경험을 이용해서 갱신목표로 하는 정책을 개선하는 학습 방법론. 즉, 수집한 경험만을 이용해서 학습 Off-Policy 지금 수집한 경험과 과거 혹은 다른 데이터에서 수집한 경험..
-
Discrete Action Space 에이전트가 취할 수 있는 행동이 n개의 행동중에 한개로 나누어 떨어지는 문제정의이다. 예를들어, 왼쪽 오른쪽 위 아래로 이동한다는 행동 4가지가 있을 때, 행동을 무조건 1개 선택해서 진행해야 한다고 하면. 위 또는 아래 오른쪽 왼쪽으로 이동하는 결과 한개가 나타나는걸 말한다. A = [ 왼쪽, 위, 오른쪽, 아래 ]Continuous Action Space 에이전트가 취할 수 있는 행동이 연속된 값을 선택하는 문제 정의 이다. 예를 들어, 로봇의 팔 관절이 몇도의 각도로 움직여야 할 지를 결정하는 문제는 Continuous Action Space이다. A = 0 ~ 360(팔각도)
-
-
내가 어떠한 상태에서 취할 수 있는 행동의 확률을 구하는 것을 행동가치 라고 하는데, 이걸 구하는 함수를 추정하는 방식을 알아보자. 행동가치함수 는 어떤 상태에서 취한 행동의 좋고 나쁨을 평가한다. 상태가치 함수를 추정하는 대표적인 알고리즘은 다음과 같다. MC(Monte-Carlo) MethodSARSAQ-Learning MC(Monte-Carlo) Method MC알고리즘은 실제 에피소드가 끝날 때 까지 한번의 경험을 수집한 뒤 해당 값으로 Q값을 갱신하는 추정 알고리즘이다. $ Q_{\pi}(s, a) = R_{t+1} + \gamma R_{t+2} + \gamma ^{2}R_{t+3} + ... $ MC Method알고리즘의 단점은 한번의 Q값을 갱신하기 위해 에피소드가 끝날 때 까지 기다려야한다..