'분류 전체보기' 카테고리의 글 목록 (3 Page)

« 2025/04 »
일	월	화	수	목	금	토
		1	2	3	4	5
6	7	8	9	10	11	12
13	14	15	16	17	18	19
20	21	22	23	24	25	26
27	28	29	30

강화 학습 알고리즘은 학습을 위한 데이터가 에이전트가 어떤 행동을 하느냐에 따라 달라진다. 따라서 강화학습 알고리즘은 데이터를 잘 수집하는 문제와 알고리즘을 잘 업데이트 하는 문제를 모두 고려해야 한다. 이때 Exploration and Expoitation Trade-off문제가 발생한다. Exploration : 학습을 위해 수집하는 Sample의 다양성을 위해 모험적인 Action을 취하는것 = 미래의 이익을 최대화Exploitaiton : 최적의 Action을 취하는것 = 현재의 이익을 최대

알고리즘

Exploration & Exploitation Trade-Off NEW

2024.06.27

댓글 개

Q-Learning 및 강화학습을 적용할 때 보통 $\epsilon - Greedy$ 라는 기법을 함께 적용한다. 에이전트가 항상 최대 Q값으로 행동하게 되면 데이터 수집과정에서 다양성이 감소하고 이로인해 최대 학습 결과가 Local Optima에 빠질 확률이 높아진다. 따라서 $\epsilon - Greedy$ 기법은 에이전트가 $\epsilon$ 확률로 최적의 행동이 아닌 랜덤한 행동을 하게 하고, 다시 $( 1 - \epsilon )$ 확률로 최적의 행동을 하게 함으로써 에이전트가 다양한 상태를 경험하고 수집할 수 있게 한다. 결과적으로 학습이 끝난 후에 더 좋은 성능을 발휘할 수 있다. 하지만 계속해서 랜덤한 행동을 하도록 할 수는 없음으로 학습 초반에는 $\epsilon$ ..

알고리즘

$\epsilon - Greedy$ NEW

2024.06.27

댓글 개

ImageAiCon PP진행중Unreal의 ImageAI공부하기알고리즘 관련 강의 학습사전지식더보기https://inradestrt.tistory.com/691 행동가치함수 추정하기내가 어떠한 상태에서 취할 수 있는 행동의 확률을 구하는 것을 행동가치 라고 하는데, 이걸 구하는 함수를 추정하는 방식을 알아보자. 행동가치함수 는 어떤 상태에서 취한 행동의 좋고 나쁨inradestrt.tistory.comhttps://inradestrt.tistory.com/692 On-Policy & Off-PolicyOn-Policy 지금 수집한 경험을 이용해서 갱신목표로 하는 정책을 개선하는 학습 방법론. 즉, 수집한 경험만을 이용해서 학습 Off-Policy 지금 수집한 경험과 과거 혹은 다른 데이터에서 수집한 경험..

작업사항 정리/UnrealC++

UnrealC++ PP 20240626_9 NEW

2024.06.26

댓글 개

Discrete Action Space 에이전트가 취할 수 있는 행동이 n개의 행동중에 한개로 나누어 떨어지는 문제정의이다. 예를들어, 왼쪽 오른쪽 위 아래로 이동한다는 행동 4가지가 있을 때, 행동을 무조건 1개 선택해서 진행해야 한다고 하면. 위 또는 아래 오른쪽 왼쪽으로 이동하는 결과 한개가 나타나는걸 말한다. A = [ 왼쪽, 위, 오른쪽, 아래 ]Continuous Action Space 에이전트가 취할 수 있는 행동이 연속된 값을 선택하는 문제 정의 이다. 예를 들어, 로봇의 팔 관절이 몇도의 각도로 움직여야 할 지를 결정하는 문제는 Continuous Action Space이다. A = 0 ~ 360(팔각도)

알고리즘

Discrete Action Space & Continuous Action Space NEW

2024.06.26

댓글 개

On-Policy 지금 수집한 경험을 이용해서 갱신목표로 하는 정책을 개선하는 학습 방법론. 즉, 수집한 경험만을 이용해서 학습 Off-Policy 지금 수집한 경험과 과거 혹은 다른 데이터에서 수집한 경험을 모두 이용해서 갱신 목표로 하는 정책을 개선하는 학습 방법론, 즉 과거에 수집한 경험도 재활용할 수 있다.Off-Policy방법으로 학습할경우 한번 수집한 경험을 여러번 활용할 수 있어서 더효율적으로 학습이 가능하다. SARSA는 On-Policy Q-Learning 은 Off-Policy

알고리즘

On-Policy & Off-Policy NEW

2024.06.26

댓글 개

내가 어떠한 상태에서 취할 수 있는 행동의 확률을 구하는 것을 행동가치 라고 하는데, 이걸 구하는 함수를 추정하는 방식을 알아보자. 행동가치함수 는 어떤 상태에서 취한 행동의 좋고 나쁨을 평가한다. 상태가치 함수를 추정하는 대표적인 알고리즘은 다음과 같다. MC(Monte-Carlo) MethodSARSAQ-Learning MC(Monte-Carlo) Method MC알고리즘은 실제 에피소드가 끝날 때 까지 한번의 경험을 수집한 뒤 해당 값으로 Q값을 갱신하는 추정 알고리즘이다. $Q_{\pi}(s, a) = R_{t+1} + \gamma R_{t+2} + \gamma ^{2}R_{t+3} + ...$ MC Method알고리즘의 단점은 한번의 Q값을 갱신하기 위해 에피소드가 끝날 때 까지 기다려야한다..

알고리즘

행동가치함수 추정하기 NEW

2024.06.26

댓글 개

내 블로그 - 관리자 홈 전환	`Q` `Q`
새 글 쓰기	`W` `W`

글 수정 (권한 있는 경우)	`E` `E`
댓글 영역으로 이동	`C` `C`

이 페이지의 URL 복사	`S` `S`
맨 위로 이동	`T` `T`
티스토리 홈 이동	`H` `H`
단축키 안내	`Shift` + `/` `⇧` + `/`

개인정보

프로그래밍 700

티스토리툴바

단축키

내 블로그

블로그 게시글

모든 영역