프로그래밍 공부

2024/06 53

카테고리 설명
  • 강화학습 알고리즘을 구성하는 요소 기호 시간 t의 상태 $ S_{t} $시간 t의 행동 $ A_{t} $시간 s의 행동 a의 행동 가치 함수 $ Q_{\pi}(s, a) $정책 $ \pi $파라미터 $\ theta $보상 RDiscount Factor $ \gamma $Epsilon Greedy $ \epsilon $강화학습 환경은 MDP라고 볼 수 있다. MDP는 순차적인 의사결정 과정으로 써 수학적으로는 $ $집합 으로 구성된다.S 는 state들의 집합A는 action들의 집합P는 trainsition probability 행렬이다. $ P_{ss'}^{a} = P[S_{t+1} = s'|S_{t} = s, A_{t} = a] $특정 액션에서 다음 임의의 다음 액션으로 넘어갈 확률R은 리워드 함수..

  • MP(Markov Process)MP는 상태s 와 상태 전이(state trainsition)확률 $ P_{ss'} $ 로 구성된 환경이다. $ MP(Markov Process) = $ 예를 들어 아래 MP(MarkovProcess)는 맑음 $ s_{1} $ 과 흐림 $ s_{2} $ 2가지 상태로 구성된다. Markov Process는 markov Property를 따른다. MarkovProperty는 다음 상태를 결정하는데 오직 바로 이전 상태만 고려한다는 가정이다.$ P[s_{t}|s_{t}] = P[s_{t+1}|s_{1},s_{2}, ... , s_{t}] $ 즉, 바로 이전 상태 이전에 어떤 상황을 거쳐서 현재 상태에 도달했든 $ (s_{1}, s_{2}, s_{2}, s_{1} = s_{2..

  • 머신러닝 알고리즘의 3가지 분류 Supervised Learning  :인풋 데이터와 그에 대한 정답 쌍(x, y)를 이용해서 학습하는 방법론Unsupervised Learning : 인풋 데이터 (x)만을 이용해서 데이터의 숨겨진 특징을 학습하는 방법론Reinforcement Learning : Reward를 제공하는 Environment와 Environment내에서 행동을 수행하는 Agent의 상호작용을 통해 학습하는 방법론 지도학습 정답 데이터가 존재하는상황에서 학습하는 알고리즘.입력 데이터 x와 그에대한 정답 레이블 y의 쌍을 이용해서 학습하는 알고리즘 예를들어, 28x28크기의 이미지인 MNIST데이터셋 이 있으면, 이를 이용해 학습을 진행할 때, 지도 학습의 트레이닝 데이터셋 은 다음과 같이 ..

    알고리즘

    강화학습 NEW

    2024.06.23
    댓글
  • ImageAiCon PP진행중Unreal의 ImageAI공부하기알고리즘 관련 강의 학습사전지식더보기https://inradestrt.tistory.com/680 경사도 사라짐 문제(Vanishing Gradient Problem) & LSTM & GRU경사도 사라짐 문제(Vanishing Gradient Problem)정의경사도 사라짐 문제는 딥러닝 모델을 훈련할 때, 역전파 과정에서 아웃풋 레이어의 에러값이 이전 레이어로 전달될 때기울기(Gradient)가 점점 작inradestrt.tistory.comhttps://inradestrt.tistory.com/681 임베딩 & Char-RNN임베딩 (Embedding)개념 임베딩은 머신러닝, 특히 자연어 처리 문제에서 데이터를 효율적으로 표현하기 위해 사..

  • 파라미터 저장tf.train.Chackpoint 클래스의 인자값으로 저장하고자 하는 tf.kears.Model 인스턴스와 전역 반복횟수를 지정해서 선언한다.ckpt = tf.train.Checkpoint(step=.tf.Variable(0), model=CNN_model) tf.train.ChackpointManager에 인자값으로 선언한 tf.train.Chackpoint 인스턴스와 중간 파라미터를 저장할 경로를 설정한다.ckpt_manager=tf.train.CheckpointManager(ckpt, directory=SAVER_DIR, max_to_keep=5) 파라미터를 저장하고자 하는 시점에 해당 시점의 전역 반복횟수를 인자값으로 선언한tf.train.ChackpointManager의 save ..

  • from __future__ import absolute_import, division, print_function, unicode_literalsfrom absl import appimport tensorflow as tfimport numpy as npimport osimport time# input 데이터와 input 데이터를 한글자씩 뒤로 민 target 데이터를 생성하는 utility 함수를 정의합니다.def split_input_target(chunk): input_text = chunk[:-1] target_text = chunk[1:] return input_text, target_text# 학습에 필요한 설정값들을 지정합니다.data_dir = tf.keras.utils.get_fi..