프로그래밍 공부

빅데이터 프로젝트 3

카테고리 설명
  • 데이터의 발전 빅데이터 시대가 되면서 수치 중심의 데이터 -> 대량의 텍스트, 이미지 음성 모든 산업분야 데이터 처리 가능해짐 정형데이터, 반정형데이터, 비정형데이터 3가지가 있다. 정형데이터 미리 정해진 형식으로 구조화된 데이터 엑셀시트, RDBMS테이블 등 반정형 데이터 특정한 형식에 따라 저장된 데이터 이지만, 정형데이터와 달리 형식에 대한 설명을 함께 제공해야 한다. XML, JSON 등 비정형 데이터 정해진 구조가 없이 저장된 데이터. 빅데이터 대부분을 차지하는 텍스트, 영상, 이미지 등이 대표적인 사례 데이터의 종류 미디어 클라우드 웹 사물인터넷 데이터베이스 오픈데이터/API 데이터 확장자 종류 CSV파일, EXCEL파일, JSON파일 CSV 각 라인의 컬럼이 콤마로 분리된 텍스트 데이터 가장..

  • 빅러닝 파이프 라인 빅 데이터 분석과 머신러닝은 데이터, 알고리즘으로 데이터를 처리함으로써 만들어지는 모델이다. 일반 개발자에게 코드 파이프라인이 있다면 데이터 사이언티스트에게는 빅 데이터 머신러닝 솔루션을 통해 흐르는 빅러닝 파이프라인이 있다. 빅러닝 도구 필수조건 데이터 포멧 지원 속도와 용량 확장성 시각화 지원 파이썬과 R 데이터 분석과 파이썬, R 두가지 정도 사용 구분 파이썬 R 장점 특정 주제나 용도에 국한되지 않은 배우기 휘운 언어 다양한 용도의 언어 데이터 시각화 라이브러리 생태계 데이터 사이언스의 통용어 단점 시각화 데이터 분야 도전자 파이썬 느린 속도 어렵다 파이썬 을 쓰는 이유 여러 소프트웨어 개발 영역에서 오랫동안 인기를 얻어왔기 때문 R보다 더 빠르기 때문 데이터 추출 순서 데이터..

  • 빅데이터의 대표적인 예시 자율 주행 자동차 하루 8시간 마다 약 40TB 데이터 생성 사람은 평균 하루에 인터넷으로 650MB의 데이터를 생산 2020년도는 하루 1.5GB로 바뀜 자율주행 차량 하루 생산 데이터는 2.666명의 인터넷 사용자와 동일함. Tesla차량의 자율 주행의 주행거리 2018년 1.2Billion 2020년 3.3Billion 현재 약 10Billion 정도의 마일을 돌아다니게 되었다. 이미 빅데이터를 활용한 자율 주행 자동차는 사용되고 있다. 딥러닝 의 논문이 2000년 초반에 나왔다. 그때 나왔으나 데이터가 부족하고 컴퓨팅 환경이 부족하여 실현이 불가능 하였으나, 현상황 기술력이 커지고 데이터가 방대해져서 학습이 가능해졌다. 컴퓨터 중앙처리장치 는 1990년대에서 2010년 사..