프로그래밍 공부

2024/06/09 3

카테고리 설명
  • ImageAiCon PP진행중인 작업프리뷰 로드아웃 제작중알고리즘 학습중...https://inradestrt.tistory.com/656 MDP ( Markov Decision Process )Markov Decision Process 의사결정 문제를 수학적으로 모델링 하는 방법이다.특정 환경에서 에이전트가 어떻게 행동해야 하는지를 결정하기 위해 사용되는 방법으로. 임의의 수학공식 이라기 보다는inradestrt.tistory.comhttps://inradestrt.tistory.com/657 Q & Optimal PolicyOptimal Policy 최적정책이라는 말로, 행동을 더 효과적으로 가장 최선의 결과를 내도록 하는 알고리즘 이라고 생각하면 된다. 이러한 최적정책은 다양한 알고리즘이 존재하지만..

  • Optimal Policy 최적정책이라는 말로, 행동을 더 효과적으로 가장 최선의 결과를 내도록 하는 알고리즘 이라고 생각하면 된다. 이러한 최적정책은 다양한 알고리즘이 존재하지만, 이러한 최적정책을 판별하는 도구로, 상태 가치함수와 행동 가치함수가 있다. 즉, 지금으로부터 기대되는 Return을 최대화 시키는것과거에서는 지금까지 잘했다 치고 지금부터 미래를 본다고 이해하면 된다. Return Gt = Rt + 감마 * Rt+1 + 감마^2 * Rt+2...모든 가능한 경우의 수를 전부 더해서 평균내보는것. $ E\left [f(x)  \right ] = \int f(x)P(x)dx $가치함수가치함수는 상태 가치함수, 행동 가치함수 두가지로 나뉜다.각각 우선하는 사항이 다르며, 이는 다음과 같다. Sta..

    알고리즘

    Q & Optimal Policy NEW

    2024.06.09
    댓글 1
  • Markov Decision Process 의사결정 문제를 수학적으로 모델링 하는 방법이다.특정 환경에서 에이전트가 어떻게 행동해야 하는지를 결정하기 위해 사용되는 방법으로. 임의의 수학공식 이라기 보다는 이러한 방법론 이 있다 정도로 받아드리면 된다. 환경의 현재 상태와 미래 상태간의 전이 가능성을 고려하여 최적의 결정을 내리는데 사용된다. 연속적으로 현재 가치에 따라 의사를 결정하는 방식이다. 여러개의 Action을 연속적으로 수행하여 S0의 동작 a0이 있고, 결과가 S1, S1의 동작이 a1 이라고 한다면, S1에는 S0 -> a0의 상태0과 행동0을 포함한다고 볼 수 있다. 이러한 과정을 반복하여 결과를 뽑아내는것을 MDP방식 이라고 한다.요소 상태(State) S시스템의 현재 상황, 상태를 말..