프로그래밍 공부

프로그래밍 700

카테고리 설명
  • 그레디언트 수식 계산방식들로 2가지에, 2가지의 장단점을 합친 한가지를 말할 수 있다. Batch Gradient Descent 경사하강법의 한 스텝 업데이트 시 전체 트레이닝 데이터를 하나의 Batch로 만들어 사용하기 때문에 Batch Gradient Descent라고 부른다. 그레디언트 수식을 계산할 때, 100만개 이상의 매우 많은 손실함수 미분값을 전부 더한 뒤 평균을 취해서 파라미터를 업데이트 하게 되면 매우 큰 연산량 낭비가 일어난다. 한 스텝을 연산하는데 많은 시간이 걸리게 되고, 결과적으로 최적의 파라미터를 찾는데 오랜 시간이 걸린다.옵티마이저 시간이 매우 길어지게 된다. 한 스텝 업데이트를 위해 계산하는 손실함수의 미분값은 아래 수식으로 나타낸다. $  \frac{\partial }{\..

  • 머신러닝의 프로세스는 다음 3가지 과정을 거친다. 학습하고자 하는 가설(Hypothesis) h(세타)을 수학적 표현식으로 표현가설의 성능을 측정할 수 있는 손실함수(LossFunction) J(세타)을 정의한다.손실함수 J(세타)를 최소화(Minimize)할 수 있는 학습 알고리즘을 설계한다. 선형 회귀 모델에 대입하여 생각하면 다음과 같다.선형 회귀 모델은 선형 함수를 이용해서 회귀를 수행하는 기법. 다음 가설로 표현한다. $ y = Wx + b $이 때 x 와 y는 데이터로부터 주어지는 인풋데이터, 타겟데이터 이고 W와 b는 파라미터 세타 라고 부르며, 트레이닝데이터 로부터 학습을 통해 적절한 값을 내야하는값.손실함수여러가지 형태로 정의될 수 있지만, 그중 가장 대표적인 손실 함수 중 하나는 평균 ..

  • ImageAiCon PP진행중인 작업프리뷰 로드아웃 제작중알고리즘 학습중...https://inradestrt.tistory.com/656 MDP ( Markov Decision Process )Markov Decision Process 의사결정 문제를 수학적으로 모델링 하는 방법이다.특정 환경에서 에이전트가 어떻게 행동해야 하는지를 결정하기 위해 사용되는 방법으로. 임의의 수학공식 이라기 보다는inradestrt.tistory.comhttps://inradestrt.tistory.com/657 Q & Optimal PolicyOptimal Policy 최적정책이라는 말로, 행동을 더 효과적으로 가장 최선의 결과를 내도록 하는 알고리즘 이라고 생각하면 된다. 이러한 최적정책은 다양한 알고리즘이 존재하지만..

  • Optimal Policy 최적정책이라는 말로, 행동을 더 효과적으로 가장 최선의 결과를 내도록 하는 알고리즘 이라고 생각하면 된다. 이러한 최적정책은 다양한 알고리즘이 존재하지만, 이러한 최적정책을 판별하는 도구로, 상태 가치함수와 행동 가치함수가 있다. 즉, 지금으로부터 기대되는 Return을 최대화 시키는것과거에서는 지금까지 잘했다 치고 지금부터 미래를 본다고 이해하면 된다. Return Gt = Rt + 감마 * Rt+1 + 감마^2 * Rt+2...모든 가능한 경우의 수를 전부 더해서 평균내보는것. $ E\left [f(x)  \right ] = \int f(x)P(x)dx $가치함수가치함수는 상태 가치함수, 행동 가치함수 두가지로 나뉜다.각각 우선하는 사항이 다르며, 이는 다음과 같다. Sta..

    알고리즘

    Q & Optimal Policy NEW

    2024.06.09
    댓글 1
  • Markov Decision Process 의사결정 문제를 수학적으로 모델링 하는 방법이다.특정 환경에서 에이전트가 어떻게 행동해야 하는지를 결정하기 위해 사용되는 방법으로. 임의의 수학공식 이라기 보다는 이러한 방법론 이 있다 정도로 받아드리면 된다. 환경의 현재 상태와 미래 상태간의 전이 가능성을 고려하여 최적의 결정을 내리는데 사용된다. 연속적으로 현재 가치에 따라 의사를 결정하는 방식이다. 여러개의 Action을 연속적으로 수행하여 S0의 동작 a0이 있고, 결과가 S1, S1의 동작이 a1 이라고 한다면, S1에는 S0 -> a0의 상태0과 행동0을 포함한다고 볼 수 있다. 이러한 과정을 반복하여 결과를 뽑아내는것을 MDP방식 이라고 한다.요소 상태(State) S시스템의 현재 상황, 상태를 말..

  • 기본골자는 다이스트라 방식과 같다. 해당 방식을 이해하고 있다면 쉽게 납득할 수 있다. 개요 문제를 해결할 때 각 단계에서 다음 단계를 검색하고, 가장 최적이라고 생각되는 선택을 하는 방식이다. 전체문제를 최적으로 해결하는데 중점을 두기 보단, 현재 각 순간마다의 선택을 최적화하는데 초점을 맞춘다.원리 간단한 행동 원리를 가지고 있다.상 하 좌 우 로 이동하는 알고리즘을 작성하였다고 가정한다. 상 하 좌 우 로 이동할 때 가중치를 가지고 가장 큰 가중치를 가진 방향으로 엑터는 움직이게 된다.처음 시작시 모든 노드의 상 하 좌 우 가중치는 0이다. 같은 가중치를 가질 경우 무작위 방향으로 이동한다.목표지점에 도달하였을 경우, 임의의 함수를 사용하여 해당 방향에 ENd가 존재함을 기입한다. Greedy Ac..