Apache Spark에 대한 자세한 설명은 저번 글에서 설명한 적이 있다. 오늘은 강의를 들으며 배운 Spark를 정리하도록 하겠다. 구성은 Spark에 대한 간단한 설명과 Hortonworks로 진행한 실습을 정리한다. [ 목차 ] https://hyem207.tistory.com/24 [스파크 완벽 가이드] CH.1_아파치 스파크란 01 | 아파치 스파크 스파크(Spark)란 통합 컴퓨팅 엔진, 클러스터 환경에서 데이터를 병렬로 처리하는 라이브러리 집합 (병렬 처리 오픈소스 엔진) * 클러스터 : 두 개 이상의 노드에 걸쳐있는 여러 hyem207.tistory.com Spark 01 | Spark란 ? Spark란 " A fast and general engine for large-scael dat..
#️⃣ Data Engineering/Spark
01 | 아파치 스파크 스파크(Spark)란 통합 컴퓨팅 엔진, 클러스터 환경에서 데이터를 병렬로 처리하는 라이브러리 집합 (병렬 처리 오픈소스 엔진) * 클러스터 : 두 개 이상의 노드에 걸쳐있는 여러 서버 인스턴스 그룹 특징 및 구성 - 단일 노트북 환경에서부터 수천 대의 서버로 구성된 클러스터까지 다양한 환경에서 실행 가능 -> 빅데이터 처리 쉽게 시작 가능, 엄청난 규모의 클러스터로 확장 가능 아래는 스파크의 기능 구성이다. 02 | 아파치 스파크의 철학 01. 통합 스파크는 간단한 데이터 읽기에서부터 SQL 처리, 머신러닝 그리고 스트림 처리에 이르기까지 다양한 데이터 분석 작업과 같은 연산 엔진과 일관성 있는 API를 수행할 수 있도록 설계됨 혼합형 API를 제공하여 작은 코드 조각이나 기존 ..