프로그래밍 공부

대학교 코딩공부 58

카테고리 설명
  • K-means 클러스터링 1. 군집에 센터벡터를 랜덤하게 만듬 군집에 데이터가 얼마나 가까운지 테스트 minkowski 거리 두 점 간의 거리척도 p=2 면 유클리디언 거리 2 p=1이면 맨하탄 거리 1 유클리디언 거리 멘하탄 거리 내적의 결과는 스칼라로 나오게 된다. 코사인 유사도 문서 검색 응용에서 주로 사용한다. 문서 내의 각 단어에 가중치를 넣어서 각 단어간 코사인 유사도를 계산하여 데이터간의 거리를 확인하고 측정한다. k-meas 군집화 결과 특징 추출 기법

  • 손실함수 J(0) [ Ross fungtion ] $J( \theta ) = \frac{1}{2} \Sigma_i (h_\theta(x^{(i)})-y^{(i)})^2 = \frac{1}{2} \Sigma_i (\theta^ \top x^{(i)}-y^{(i)})^2$ 추정치와 측정치의 오차를 표현한 식이다. 추정치와 측정치를 뺸 값을 데이터에 대한 값을 전부 더하고 2로 나눈다. 결국 손실함수 = 오차 의 합 이다. 이 손실함수 출력이 가장 작아야 한다. J세타의 값이 가장 작아지도록 하는 세타 값을 찾아야 한다. 손실함수는 작을수록 좋다. 파라미터 계산법 Full Serching Strategy ( 풀 서치 방법 ) 코드 그대로 모든 값을 다 넣어서 비교해보는것. 그러나, 계산양이 너무 많기 떄문에,..

  • 리눅스 파일 시스템의 종류 물리적 하드디스크 A : 트랙(Track) B : 지리적 섹터 (Geometrical sector) C : 트렉 섹터 (Track Sector) D : 클러스터(Cluster): 트랙 섹터의 집합 파일 시스템 파일과 디렉터리의 집합을 구조적으로 관리하는 체계 어떤 구조를 구성하여 파일이나 디렉터리를 관리하느냐에 따라 다양한 형식의 파일 시스템이 존재 리눅스 고유의 디스크 기반 파일 시스템 ext(ext1) Extended File System의 약자로 1992년 4월 리눅스 0.96.c에 포함되어 발표됨 파일 시스템의 최대 크기는 2G, 파일 이름의 길이는 255 바이트 까지 지원 inode 수정과 데이터의 수정 시간 지원이 안 되고, 파일 시스템이 복잡해지고 파편화되는 문제 ..

  • 영상 분할 (Image Segmentation) 영상을 의미있는 영역으로 나누는 과정. 입력 영상에서의 도로, 차, 건물 등 의 영역을 나누는 것 입력 데이터는 라벨값으로 표현된다. 라벨 값은 영상에서 분류하고자 하는 영역의 목록, 즉 부류(class)를 의미 이 픽셀이 사람인가, 나무인가, 건물인가 로 나눈다. 인스턴스 분할 ( Instance Segmentation ) 동일한 목록, 즉 동일한 부류( 도로, 사람, 양, 등) 에 대해서 독립된 개체를 다르게 인식하고 분할하는 방법 K-means Clustering ( K-평균 클러스터링 ) 데이터를 미리 정의된 척도에 따라, 예를 들어 거리, 색상 등과 같은 유사도를 측정해서 유사한 그룹으로 매핑하는 작업 비지도 학습으로 라벨값으로 분류하는 과정 k-..

  • 이진화 = 그레이 영상을 흑백 영상으로 변환하는 과정이다. 나무영역은 블랙, 하늘과 달은 화이트로 표현하였다. 좀 풀어서 쓴다면 이진화 = 그레이 영상을 두 그룹인 블랙, 화이트 의 두가지 생각. 이진화로 분할하여 표현해주는 과정 이진화 의 방법 : 임계값 방법 (Thresholding) 히스토그램을 분석하여 두 봉우리 사이의 계곡을 임계값 T로 결정한다. J(j,i) 의 값이T보다 크거나 같으면 1(255)로 T보다 작으면 0(0)으로 맵핑을 다시 해 주는것. 오츄 알고리즘 [Otsu 79] 이진화 했을 떄 흑 그룹과 백 그룹에 소속된 픽셀의 분포가 균일할수록 좋다는 점에 착안 여기서 균일성이란 분산을 의미한다. 따라서 두 그룹의 분산이 작을 수록 좋다. 목적함수( Objective Function) ..

  • 거실 면적과 집 가격 사이의 선형회귀 가격정보의 관계를 측정하자. Living area(feet2) Price(1000$s) 2014 400 1600 330 2400 369 1416 232 3000 540 ... ... 2차 평면상에 마킹이 가능하다. 어떠한 임의의 값에 대한 출력값을 예측하는 기법 = 선형회귀 선형회귀 = 주어진 데이터로 부터 그 데이터를 가장 잘 표현할 수 있는 라인 한개를 찾는 것. 여기서 추정한 라인과 수집된 데이터 간의 오차가 크다 라면 옳은 라인이 아니다. 이런 2차원 방정식에서 직선 말고도 2차함수가 사용 될 수 있는데, 이러한 2차함수를 사용한 그래프를 Training Set : M개의 거실면적, 가격정보 쌍 y = $h_0 (x) $ : 피라미터 로 모델링 된 가설 함수 ..