'분류 전체보기' 카테고리의 글 목록 (4 Page)

« 2025/07 »
일	월	화	수	목	금	토
		1	2	3	4	5
6	7	8	9	10	11	12
13	14	15	16	17	18	19
20	21	22	23	24	25	26
27	28	29	30	31

ImageAiCon PP진행중Unreal의 ImageAI공부하기알고리즘 관련 강의 학습사전지식더보기https://inradestrt.tistory.com/685 강화학습머신러닝 알고리즘의 3가지 분류 Supervised Learning :인풋 데이터와 그에 대한 정답 쌍(x, y)를 이용해서 학습하는 방법론Unsupervised Learning : 인풋 데이터 (x)만을 이용해서 데이터의 숨겨진 특징을inradestrt.tistory.comhttps://inradestrt.tistory.com/686 MP(Markov Process)MP(Markov Process)MP는 상태s 와 상태 전이(state trainsition)확률 $P_{ss'}$ 로 구성된 환경이다. $ MP(Markov Proce..

작업사항 정리/UnrealC++

UnrealC++ PP 20240624_8 NEW

2024.06.24

댓글 개

Grid-World는 강화학습의 개념을 설명하기 위해 자주 사용되는 대표적인 예제 환경이다. Goal지점이 출구인 미로-그리드월드(Grid World)-에 갖혀있다고 가정하자. 학습가중치의 기본조건은 다음과 같다.에이전트가 이동해서 출구인 Goal지점에 도달할 경우 100점의 보상(Reward)를 얻고 그 외의 지점에서는 0의 보상(Rward)를 얻는다.Gaol에 도달했을 경우에만 100을 얻는다. 따라서 우리의 최종 목표는 최대한 적은 횟수의 이동을 통해 Goal에 도달해 미로를 탈출하는 것이다. Grid-World에서 계산을 통해 구한 최적의 행동가치 함수는 다음과 같다.최적의 상태가치 함수는 다음과 같다. 최적의 정책즉, 상태가치 함수와 행동 가치 함수에 대한것 은 최적의 정책 $\pi$ 을 찾는..

알고리즘

Grid-World NEW

2024.06.24

댓글 개

MRP(Markov Reward Process) MRP(Markov Reward Process) 는 Markov Process(MP) 에 보상 R과 Discount Factor $\gamma$ 가 추가된 형태이다. $MRP(Markov Reward Process) =$ 어떤 상태에 도달함에 따른 보상 R이 주어지고 각각의 보상은 시간에 따른 Discount Factor $\gamma$ 에 의해 점차적으로 감쇠된다.MDP(Markov Decision Process)MDP(Markov Decision Process)는 Markov Reward Process(MRP)에 행동 a가 추가된 형태이다. $MRP(Markov Reward Process) =$ 상태와 행동의 판단 Markov Decisi..

알고리즘

MRP(Markov Reward Process) & MDP(Markov Decision Process) NEW

2024.06.24

댓글 개

강화학습 알고리즘을 구성하는 요소 기호 시간 t의 상태 $S_{t}$ 시간 t의 행동 $A_{t}$ 시간 s의 행동 a의 행동 가치 함수 $Q_{\pi}(s, a)$ 정책 $\pi$ 파라미터 $\ theta$ 보상 RDiscount Factor $\gamma$ Epsilon Greedy $\epsilon$ 강화학습 환경은 MDP라고 볼 수 있다. MDP는 순차적인 의사결정 과정으로 써 수학적으로는 집합 으로 구성된다.S 는 state들의 집합A는 action들의 집합P는 trainsition probability 행렬이다. $P_{ss'}^{a} = P[S_{t+1} = s'|S_{t} = s, A_{t} = a]$ 특정 액션에서 다음 임의의 다음 액션으로 넘어갈 확률R은 리워드 함수..

알고리즘

강화학습 알고리즘 기초개요 NEW

2024.06.24

댓글 개

MP(Markov Process)MP는 상태s 와 상태 전이(state trainsition)확률 $P_{ss'}$ 로 구성된 환경이다. $MP(Markov Process) =$ 예를 들어 아래 MP(MarkovProcess)는 맑음 $s_{1}$ 과 흐림 $s_{2}$ 2가지 상태로 구성된다. Markov Process는 markov Property를 따른다. MarkovProperty는 다음 상태를 결정하는데 오직 바로 이전 상태만 고려한다는 가정이다. $P[s_{t}|s_{t}] = P[s_{t+1}|s_{1},s_{2}, ... , s_{t}]$ 즉, 바로 이전 상태 이전에 어떤 상황을 거쳐서 현재 상태에 도달했든 $ (s_{1}, s_{2}, s_{2}, s_{1} = s_{2..

알고리즘

MP(Markov Process) NEW

2024.06.24

댓글 개

머신러닝 알고리즘의 3가지 분류 Supervised Learning :인풋 데이터와 그에 대한 정답 쌍(x, y)를 이용해서 학습하는 방법론Unsupervised Learning : 인풋 데이터 (x)만을 이용해서 데이터의 숨겨진 특징을 학습하는 방법론Reinforcement Learning : Reward를 제공하는 Environment와 Environment내에서 행동을 수행하는 Agent의 상호작용을 통해 학습하는 방법론 지도학습 정답 데이터가 존재하는상황에서 학습하는 알고리즘.입력 데이터 x와 그에대한 정답 레이블 y의 쌍을 이용해서 학습하는 알고리즘 예를들어, 28x28크기의 이미지인 MNIST데이터셋 이 있으면, 이를 이용해 학습을 진행할 때, 지도 학습의 트레이닝 데이터셋 은 다음과 같이 ..

알고리즘

강화학습 NEW

2024.06.23

댓글 개

내 블로그 - 관리자 홈 전환	`Q` `Q`
새 글 쓰기	`W` `W`

글 수정 (권한 있는 경우)	`E` `E`
댓글 영역으로 이동	`C` `C`

이 페이지의 URL 복사	`S` `S`
맨 위로 이동	`T` `T`
티스토리 홈 이동	`H` `H`
단축키 안내	`Shift` + `/` `⇧` + `/`

개인정보

프로그래밍 700

티스토리툴바

단축키

내 블로그

블로그 게시글

모든 영역