2024/06 53
-
Optimal Policy 최적정책이라는 말로, 행동을 더 효과적으로 가장 최선의 결과를 내도록 하는 알고리즘 이라고 생각하면 된다. 이러한 최적정책은 다양한 알고리즘이 존재하지만, 이러한 최적정책을 판별하는 도구로, 상태 가치함수와 행동 가치함수가 있다. 즉, 지금으로부터 기대되는 Return을 최대화 시키는것과거에서는 지금까지 잘했다 치고 지금부터 미래를 본다고 이해하면 된다. Return Gt = Rt + 감마 * Rt+1 + 감마^2 * Rt+2...모든 가능한 경우의 수를 전부 더해서 평균내보는것. $ E\left [f(x) \right ] = \int f(x)P(x)dx $가치함수가치함수는 상태 가치함수, 행동 가치함수 두가지로 나뉜다.각각 우선하는 사항이 다르며, 이는 다음과 같다. Sta..
-
Markov Decision Process 의사결정 문제를 수학적으로 모델링 하는 방법이다.특정 환경에서 에이전트가 어떻게 행동해야 하는지를 결정하기 위해 사용되는 방법으로. 임의의 수학공식 이라기 보다는 이러한 방법론 이 있다 정도로 받아드리면 된다. 환경의 현재 상태와 미래 상태간의 전이 가능성을 고려하여 최적의 결정을 내리는데 사용된다. 연속적으로 현재 가치에 따라 의사를 결정하는 방식이다. 여러개의 Action을 연속적으로 수행하여 S0의 동작 a0이 있고, 결과가 S1, S1의 동작이 a1 이라고 한다면, S1에는 S0 -> a0의 상태0과 행동0을 포함한다고 볼 수 있다. 이러한 과정을 반복하여 결과를 뽑아내는것을 MDP방식 이라고 한다.요소 상태(State) S시스템의 현재 상황, 상태를 말..
-
기본골자는 다이스트라 방식과 같다. 해당 방식을 이해하고 있다면 쉽게 납득할 수 있다. 개요 문제를 해결할 때 각 단계에서 다음 단계를 검색하고, 가장 최적이라고 생각되는 선택을 하는 방식이다. 전체문제를 최적으로 해결하는데 중점을 두기 보단, 현재 각 순간마다의 선택을 최적화하는데 초점을 맞춘다.원리 간단한 행동 원리를 가지고 있다.상 하 좌 우 로 이동하는 알고리즘을 작성하였다고 가정한다. 상 하 좌 우 로 이동할 때 가중치를 가지고 가장 큰 가중치를 가진 방향으로 엑터는 움직이게 된다.처음 시작시 모든 노드의 상 하 좌 우 가중치는 0이다. 같은 가중치를 가질 경우 무작위 방향으로 이동한다.목표지점에 도달하였을 경우, 임의의 함수를 사용하여 해당 방향에 ENd가 존재함을 기입한다. Greedy Ac..
-
ImageAiCon PP진행중인 작업프리뷰 로드아웃 제작중알고리즘 학습중...https://inradestrt.tistory.com/655 진행 예정 작업(예상)Unreal의 ImageAI공부하기CNN알고리즘 다시 복기하기알고리즘 선별( 현 예상안 으로는,DQN알고리즘 사용예정)알고리즘 관련 강의 학습( 자본이 준비되면 강의학습을 진행하며 정리사항 정리예정)Unreal ImageRetargeting 코드제작언리얼 함수 상으로 지정된 카메라의 타겟뷰를 이미지값으로 저장 반환하는 방식이 존재함.TCP방식으로 데이터 통신처리를 진행TensorFlow를 사용하여 전달받은 이미지로 학습 알고리즘 연산.연산결과를 다시 언리얼로 전달하여 학습된 데이터를 갱신.4번과 3번을 반복학습결과확인 후 재학습 5와 6을 원하는..
-
-
목표점상점 구매 잠금효과 재정리카드 UI를 좀 더 보기 편하게 정리하기상점 구매 잠금효과 재정리 전에 만들어놓았던, 스테이지 세이브 데이터의 항목에 Shop의 데이터를 끼워넣고 로드만 해주면 되는 상황이라 큰 문제는 발생하지 않았다. 개선점 Load시, 비어있는 노드에는 새 카드 노드에서 객체를 호출해야 하는데. 비어있는 노드로 호출된다. 비어있을 경우, 로드할 때 새 카드를 로드하게 바꾸어야한다.카드 UI를 좀 더 보기 편하게 정리하기 UI를 재작업하였다. 초기에 작업했던 카드 UI라 오차가 많고 난잡하게 작성되어있어서 거의 새로 만드는 수준으로 제작하였다. 개선점카드의 FaceImage를 설정하여 종족이나 임의의 카드 표시 이미지를 띄워야한다.진행중인 작업0. 디테일화 ( 베이스를 기반으로 스킬, ..