스파크 완벽 가이드

01 | 아파치 스파크 스파크(Spark)란 통합 컴퓨팅 엔진, 클러스터 환경에서 데이터를 병렬로 처리하는 라이브러리 집합 (병렬 처리 오픈소스 엔진) * 클러스터 : 두 개 이상의 노드에 걸쳐있는 여러 서버 인스턴스 그룹 특징 및 구성 - 단일 노트북 환경에서부터 수천 대의 서버로 구성된 클러스터까지 다양한 환경에서 실행 가능 -> 빅데이터 처리 쉽게 시작 가능, 엄청난 규모의 클러스터로 확장 가능 아래는 스파크의 기능 구성이다. 02 | 아파치 스파크의 철학 01. 통합 스파크는 간단한 데이터 읽기에서부터 SQL 처리, 머신러닝 그리고 스트림 처리에 이르기까지 다양한 데이터 분석 작업과 같은 연산 엔진과 일관성 있는 API를 수행할 수 있도록 설계됨 혼합형 API를 제공하여 작은 코드 조각이나 기존 ..