빅데이터 4
-
빅러닝 파이프 라인 빅 데이터 분석과 머신러닝은 데이터, 알고리즘으로 데이터를 처리함으로써 만들어지는 모델이다. 일반 개발자에게 코드 파이프라인이 있다면 데이터 사이언티스트에게는 빅 데이터 머신러닝 솔루션을 통해 흐르는 빅러닝 파이프라인이 있다. 빅러닝 도구 필수조건 데이터 포멧 지원 속도와 용량 확장성 시각화 지원 파이썬과 R 데이터 분석과 파이썬, R 두가지 정도 사용 구분 파이썬 R 장점 특정 주제나 용도에 국한되지 않은 배우기 휘운 언어 다양한 용도의 언어 데이터 시각화 라이브러리 생태계 데이터 사이언스의 통용어 단점 시각화 데이터 분야 도전자 파이썬 느린 속도 어렵다 파이썬 을 쓰는 이유 여러 소프트웨어 개발 영역에서 오랫동안 인기를 얻어왔기 때문 R보다 더 빠르기 때문 데이터 추출 순서 데이터..
-
빅데이터의 대표적인 예시 자율 주행 자동차 하루 8시간 마다 약 40TB 데이터 생성 사람은 평균 하루에 인터넷으로 650MB의 데이터를 생산 2020년도는 하루 1.5GB로 바뀜 자율주행 차량 하루 생산 데이터는 2.666명의 인터넷 사용자와 동일함. Tesla차량의 자율 주행의 주행거리 2018년 1.2Billion 2020년 3.3Billion 현재 약 10Billion 정도의 마일을 돌아다니게 되었다. 이미 빅데이터를 활용한 자율 주행 자동차는 사용되고 있다. 딥러닝 의 논문이 2000년 초반에 나왔다. 그때 나왔으나 데이터가 부족하고 컴퓨팅 환경이 부족하여 실현이 불가능 하였으나, 현상황 기술력이 커지고 데이터가 방대해져서 학습이 가능해졌다. 컴퓨터 중앙처리장치 는 1990년대에서 2010년 사..
-
가져오기 프로세스와 데이터를 메모리로 가져옴 배치 가져온 프로세스와 데이터를 메모리의 어떤 부분에 올려놓을지 결정 배치 작업 전 메모리를 어떻게 자를지 중요 같은크기 프로세스 크기에 맞게 자르기 나눈 메모리 구역에 따라 프로세스와 데이터를 어떤 위치에 놓을지 결정 재배치 새로운 프로세스를 가져와야 하는데 메모리가 꽉찬경우 프로세스를 하드디스크로 다시옮김 오래된 프로세스를 내보냄 가상 메모리 실제 메모리 크기와 관계없이 프로세스에 커다란 메모리 공간을 제공하는 기술 가상메모리 크기 = 실제 메모리 크기 + 스왑영역 크기 그러나 스왑이 일어나면서 교환하는 인터럽트가 발생하면서 문맥교환 시간이 발생하여 속도가 느려질 수 있다. 가상메모리와 빅데이터의 연관성 가상메모리가 있음으로써 메모리가 부족해도 스왑영역을 ..
-
시스템 소프트웨어 빅데이터 분석을 위한 소프트웨어 스택 빅데이터 분석 라이브러리 Mahout 또는 Spark MLib 마지막 병렬처리 맵리듀스 프로그램 위로 분산파일시스템 하둡분산파일시스템 위로 운영체제 리눅스 가장 밑 데이터 처리는 위에서 밑으로 내려가는 순서로 데이터가 분산된다. 운영체제 윈도우에서 빅데이터 처리가 힘든 이유? [ 내생각 ] 윈도우에서의 라이브러리는 추가가 힘들기 때문? 오픈소스로 인한 법적분쟁이 따로 일어나지 않기 때문? [ 윈도우 = 단일 사용자를 위해 만들어진것. ] 다중사용자가 가능하지만, 윈도우는 여러명의 사용자가 동시에 접속할 수 없기 때문, 윈도우는 마우스 전용으로 만들어진 인터페이스 로 마우스 추적이 필요하지만, 리눅스는 터미널로 키보드만으로 접속과 다루기가 가능하다. ..