프로그래밍 공부

알고리즘 40

카테고리 설명
  • 크로스 엔트로피(Cross-Entropy)분류 문제에는 크로스 엔트로피(Cross-Entropy)손실 함수를 많이 사용한다. 크로스 엔트로피 손실 함수도 평균제곱오차(MSE)와 같이 모델의 예측값이 참값과 비슷하면 작은값, 참값과 다르면 큰 값을 갖는 형태의 함수로 아래와 같은 수식으로 나타낼 수 있다. $ H_{y'}(y) = -\sum_{i}y'_{i}log(y_{i}) $ 위 수식에서 y'는 참값 y는 모델의 예측값을 나타낸다.일반적으로 분류 문제에 대해서는 MSE보다 크로스 엔트로피 함수를 사용하는 것이 학습이 더 잘되는 것 으로 알려져 있다. 따라서 대부분의 텐서플로 코드들에서 크로스 엔트로피 손실 함수를 사용한다.

  • 머신러닝은 크게 트레이닝 과정과 테스트 과정으로 나뉜다. 트레이닝 과정에서는 대량의 데이터와 충분한 시간을 들여 모델의 최적 파라미터를 찾는다. 테스트 과정에서는 트레이닝 과정에서 구한 최적의 파라미터로 구성한 모델을 트레이닝 과정에서 보지 못한 새로운 데이터에 적용해서 모델이 잘 학습되었는지 테스트하거나 실제 문제를 풀기 위해 사용한다. 보통 모델이 잘 학습되었는지 체크할 때는 테스트 실제 문제를 푸는 과정을 추론 이라고 부른다. 이렇게 트레이닝과 테스트를 수행하기 위해 가지고있는 데이터 중 일부는 트레이닝 데이터, 일부는 테스트 데이터로 나눈다. 여기서 더 나아가서 전체 데이터를 트레이닝 데이터, 검증용 데이터, 테스트 데이터 로 나누기도 한다. 검증용 데이터는 트레이닝 과정에서 학습에 사용하지는 않..

  • 오버피팅(Overfitting)트레이닝 에러와 검증 에러가 모두 작아지지만, 일정 횟수 이상 반복할 경우 트레이닝 에러는 작아지지만, 검증 에러는 커지는 오버피팅에 빠지게 된다. 따라서 트레이닝 에러는 작아지지만, 검증 에러는 커지는 지점에서 업데이틀르 중지하면 최적의 파라미터를 얻을 수 있다. 학습 과정에서 머신러닝 알고리즘의 파라미터가 트레이닝 데이터에 과도하게 최적화되어 트레이닝 데이터에 대해서는 잘 동작하지만, 새로운 데이터 테스트 데이터에 대해서는 잘 동작하지 못하는 현상을 말한다. 오버피팅은 모델의 표현력이 지나치게 강력할경우 발생하기 쉽다. 딥러닝의 경우 모델의 표현력이 강하기 때문에 오버피팅에 빠지기 쉽다. 따라서 오버피팅 문제를 완화하기 위해 드롭아웃과 같은 다양한 기법을 사용한다. 언더..

  • 그레디언트 수식 계산방식들로 2가지에, 2가지의 장단점을 합친 한가지를 말할 수 있다. Batch Gradient Descent 경사하강법의 한 스텝 업데이트 시 전체 트레이닝 데이터를 하나의 Batch로 만들어 사용하기 때문에 Batch Gradient Descent라고 부른다. 그레디언트 수식을 계산할 때, 100만개 이상의 매우 많은 손실함수 미분값을 전부 더한 뒤 평균을 취해서 파라미터를 업데이트 하게 되면 매우 큰 연산량 낭비가 일어난다. 한 스텝을 연산하는데 많은 시간이 걸리게 되고, 결과적으로 최적의 파라미터를 찾는데 오랜 시간이 걸린다.옵티마이저 시간이 매우 길어지게 된다. 한 스텝 업데이트를 위해 계산하는 손실함수의 미분값은 아래 수식으로 나타낸다. $  \frac{\partial }{\..

  • 머신러닝의 프로세스는 다음 3가지 과정을 거친다. 학습하고자 하는 가설(Hypothesis) h(세타)을 수학적 표현식으로 표현가설의 성능을 측정할 수 있는 손실함수(LossFunction) J(세타)을 정의한다.손실함수 J(세타)를 최소화(Minimize)할 수 있는 학습 알고리즘을 설계한다. 선형 회귀 모델에 대입하여 생각하면 다음과 같다.선형 회귀 모델은 선형 함수를 이용해서 회귀를 수행하는 기법. 다음 가설로 표현한다. $ y = Wx + b $이 때 x 와 y는 데이터로부터 주어지는 인풋데이터, 타겟데이터 이고 W와 b는 파라미터 세타 라고 부르며, 트레이닝데이터 로부터 학습을 통해 적절한 값을 내야하는값.손실함수여러가지 형태로 정의될 수 있지만, 그중 가장 대표적인 손실 함수 중 하나는 평균 ..

  • Optimal Policy 최적정책이라는 말로, 행동을 더 효과적으로 가장 최선의 결과를 내도록 하는 알고리즘 이라고 생각하면 된다. 이러한 최적정책은 다양한 알고리즘이 존재하지만, 이러한 최적정책을 판별하는 도구로, 상태 가치함수와 행동 가치함수가 있다. 즉, 지금으로부터 기대되는 Return을 최대화 시키는것과거에서는 지금까지 잘했다 치고 지금부터 미래를 본다고 이해하면 된다. Return Gt = Rt + 감마 * Rt+1 + 감마^2 * Rt+2...모든 가능한 경우의 수를 전부 더해서 평균내보는것. $ E\left [f(x)  \right ] = \int f(x)P(x)dx $가치함수가치함수는 상태 가치함수, 행동 가치함수 두가지로 나뉜다.각각 우선하는 사항이 다르며, 이는 다음과 같다. Sta..

    알고리즘

    Q & Optimal Policy NEW

    2024.06.09
    댓글 1