대학교 코딩공부/빅데이터 프로젝트 9
-
YARN = 33P 의 4자기 노드의 동작 방식 이해하기 (1) client가 RM에게 작업을 요청함 (2) RM은 AM을 구동함 (3) AM은 application 견적 보고 필요한 리소스를 요청함 (4) NM을 통해 application용 컨테이너를 구동함 (map task, reduce task, spark executor 등) (5) 컨테이너 내에서 task를 수행함 Client에서 작업이 들어온다 -> Name노드에서 명령을 받고 스케줄러를 받아와서 데이터를 어찌 분할할지 결정 그 후 지정할 Data Node에 있는 Application Master에 작업명령을 할당. 그 이유는 효율성 때문에 이런 분할방식을 사용함. 그 후 Data Node 의 Application Master 가 더 많은 자..
-
구조도 Muhaut MR Zookeeper HIVE(SQL) Yarn HBase MR(Map Reduce) Yarn HDFS Hadoob MapReduce 구글에서 대용량 데이터 처리를 분산 병렬 컴퓨팅에서 처리하기위한 목적으로 2004년에 제작발표한 소프트웨어 프레임워크 빅데이터를 입력 -> 스크립트 분할 -> 맵핑( 키 밸류 ) -> 셔플링 ( 중복항목 확인 ) -> 리듀싱 ( 중복 값 제거, 확인 ) -> 결과 도출 (얼마나 중복되었는지, 단어는 뭐가 나왔는지) 장점 단순 사용편리 유연성 저장구조 독립성 내고장성 확보 ( 일부 고장나도 전체 영향 낮음 ) 확장성 높음 단점 고정된 단일 데이터 흐름 기존 DBMS보다 불편함 빌의 단순한 스케줄링 DBMS와 비교하여 상대적으로 성능 낮음 개발도구의 불편..
-
-
-
데이터의 발전 빅데이터 시대가 되면서 수치 중심의 데이터 -> 대량의 텍스트, 이미지 음성 모든 산업분야 데이터 처리 가능해짐 정형데이터, 반정형데이터, 비정형데이터 3가지가 있다. 정형데이터 미리 정해진 형식으로 구조화된 데이터 엑셀시트, RDBMS테이블 등 반정형 데이터 특정한 형식에 따라 저장된 데이터 이지만, 정형데이터와 달리 형식에 대한 설명을 함께 제공해야 한다. XML, JSON 등 비정형 데이터 정해진 구조가 없이 저장된 데이터. 빅데이터 대부분을 차지하는 텍스트, 영상, 이미지 등이 대표적인 사례 데이터의 종류 미디어 클라우드 웹 사물인터넷 데이터베이스 오픈데이터/API 데이터 확장자 종류 CSV파일, EXCEL파일, JSON파일 CSV 각 라인의 컬럼이 콤마로 분리된 텍스트 데이터 가장..
-
빅러닝 파이프 라인 빅 데이터 분석과 머신러닝은 데이터, 알고리즘으로 데이터를 처리함으로써 만들어지는 모델이다. 일반 개발자에게 코드 파이프라인이 있다면 데이터 사이언티스트에게는 빅 데이터 머신러닝 솔루션을 통해 흐르는 빅러닝 파이프라인이 있다. 빅러닝 도구 필수조건 데이터 포멧 지원 속도와 용량 확장성 시각화 지원 파이썬과 R 데이터 분석과 파이썬, R 두가지 정도 사용 구분 파이썬 R 장점 특정 주제나 용도에 국한되지 않은 배우기 휘운 언어 다양한 용도의 언어 데이터 시각화 라이브러리 생태계 데이터 사이언스의 통용어 단점 시각화 데이터 분야 도전자 파이썬 느린 속도 어렵다 파이썬 을 쓰는 이유 여러 소프트웨어 개발 영역에서 오랫동안 인기를 얻어왔기 때문 R보다 더 빠르기 때문 데이터 추출 순서 데이터..