프로그래밍 공부
작성일
2022. 10. 26. 00:58
작성자
WDmil
728x90

특징 추출 ( Feature Extraction )

서로 다른 부류에 속한 데이터를 구별짓기 위해 필요한 특징을 설계하고 추출하는 과정.

 

사람의 얼굴에서 안경을 썼냐, 머리 스타일이 어떠냐, 코의 모양은 어떠냐 등의 데이터를 뽑아내서 분류를 가장 잘 할 수 있는지를 결정 하는 특징을 추출하는것.

ex) 특징 = 피부색, 눈 크기, 입술 크기

특징 벡터 X = {$x_1,x_2,x_3$}

특징 벡터의 차원 = 3차원

일정 눈, 피부색, 입술크기가 각각 0에 가까울수록 작음 0에 가까울수록 검정색임 0에 가까울수록 작음

으로 한다고 하면, 데이터 값의 학습을 축적 할 수 있다.

 

A라는 사람이 있다고 하면, $X^1 =(x_1,x_2,x_3) = (0.854,0.221,0.134)$

이런식 으로 추출 할 수 있다.

 

Raw data = 가공되지 않은 데이터.

 

이러한 이미지, 정지된 영상을 뽑아와서 데이터를 추출하고 값을 만들어야함

알고리즘 으로 추출함.

 

특징 설계 -> 부류 구분

각각의 데이터 요소를 Component 라고 한다.

 

특징의 구별 능력 ( Discriminative Power )

부류간의 데이터를 잘 구별 할 수 있는게 특징설계의 능력

특징 벡터가 멀리 떨어질 수록 좋음

위와 같은 표가 나오게 되면, 보았을때 판정은,

연수와 기태가 구별 능력이 떨어짐

연수/기태와 희진과의 구별 능력은 좋음

 

실제 데이터는 저렇게 몰려있지 않고 약간 퍼져있음.

 

여기서 바리에이션( 퍼짐정도 ) 에 영향을 주는 것은 각도( 포즈), 촬영상태( 빛 밝기 등 ) 이 영향을 줄 수 있다.

Robust( 강인한 )

환경에 상관 없이 동일한 특징이 나올 수 있는 것.

 

단어 가방 (Bag - of - Words ) 

위 문장을 분류 한다고 하였을 때, 문장의 단어들을 따로 추출하고 묶어서 관련 단어가 얼마나 많은 빈도로 나타나는지를 표현해주고 이를 통해 어떠한 것을 이야기 하는 문서 인지 알아낼 수 있다.

 

이러한 기법을 단어 가방 (Bag - of - Words ) 라고 한다.

728x90