728x90
Discrete Action Space
에이전트가 취할 수 있는 행동이 n개의 행동중에 한개로 나누어 떨어지는 문제정의이다.
예를들어, 왼쪽 오른쪽 위 아래로 이동한다는 행동 4가지가 있을 때, 행동을 무조건 1개 선택해서 진행해야 한다고 하면.
위 또는 아래 오른쪽 왼쪽으로 이동하는 결과 한개가 나타나는걸 말한다.
A = [ 왼쪽, 위, 오른쪽, 아래 ]
Continuous Action Space
에이전트가 취할 수 있는 행동이 연속된 값을 선택하는 문제 정의 이다.
예를 들어, 로봇의 팔 관절이 몇도의 각도로 움직여야 할 지를 결정하는 문제는 Continuous Action Space이다.
A = 0 ~ 360(팔각도)
728x90
'알고리즘' 카테고리의 다른 글
Exploration & Exploitation Trade-Off (0) | 2024.06.27 |
---|---|
$ \epsilon - Greedy $ (0) | 2024.06.27 |
On-Policy & Off-Policy (0) | 2024.06.26 |
행동가치함수 추정하기 (0) | 2024.06.26 |
Grid-World (0) | 2024.06.24 |