#️⃣ Data Engineering

01 | 아파치 스파크 스파크(Spark)란 통합 컴퓨팅 엔진, 클러스터 환경에서 데이터를 병렬로 처리하는 라이브러리 집합 (병렬 처리 오픈소스 엔진) * 클러스터 : 두 개 이상의 노드에 걸쳐있는 여러 서버 인스턴스 그룹 특징 및 구성 - 단일 노트북 환경에서부터 수천 대의 서버로 구성된 클러스터까지 다양한 환경에서 실행 가능 -> 빅데이터 처리 쉽게 시작 가능, 엄청난 규모의 클러스터로 확장 가능 아래는 스파크의 기능 구성이다. 02 | 아파치 스파크의 철학 01. 통합 스파크는 간단한 데이터 읽기에서부터 SQL 처리, 머신러닝 그리고 스트림 처리에 이르기까지 다양한 데이터 분석 작업과 같은 연산 엔진과 일관성 있는 API를 수행할 수 있도록 설계됨 혼합형 API를 제공하여 작은 코드 조각이나 기존 ..
보호되어 있는 글입니다.
보호되어 있는 글입니다.
Airflow 설치 환경 : Docker가 설치된 Ubuntu 20.04 LTS 과정 1. 먼저 home 아래에 airflow라는 폴더를 만들고, 다음 파일들을 생성한다. 1) contraints-3.8.txt : airflow를 다운로드 받기 위해 필요한 requirement file이 필요함. 아래 명령어로 내용을 가져올 수 있다. wget https://raw.githubusercontent.com/apache/airflow/constraints-2.0.2/constraints-3.8.txt 2) Dockerfile : Docker image를 만들기 위한 설정 내용이 적혀있음 (강의 참고) # Base Image FROM python:3.8-slim LABEL maintainer="MarcLamb..
HyeM207
'#️⃣ Data Engineering' 카테고리의 글 목록 (7 Page)