'#️⃣ Data Engineering' 카테고리의 글 목록 (7 Page)

2022.02.12· #️⃣ Data Engineering/Hadoop

보호되어 있는 글입니다.

2022.02.06· #️⃣ Data Engineering/Spark

01 | 아파치 스파크 스파크(Spark)란 통합 컴퓨팅 엔진, 클러스터 환경에서 데이터를 병렬로 처리하는 라이브러리 집합 (병렬 처리 오픈소스 엔진) * 클러스터 : 두 개 이상의 노드에 걸쳐있는 여러 서버 인스턴스 그룹 특징 및 구성 - 단일 노트북 환경에서부터 수천 대의 서버로 구성된 클러스터까지 다양한 환경에서 실행 가능 -> 빅데이터 처리 쉽게 시작 가능, 엄청난 규모의 클러스터로 확장 가능 아래는 스파크의 기능 구성이다. 02 | 아파치 스파크의 철학 01. 통합 스파크는 간단한 데이터 읽기에서부터 SQL 처리, 머신러닝 그리고 스트림 처리에 이르기까지 다양한 데이터 분석 작업과 같은 연산 엔진과 일관성 있는 API를 수행할 수 있도록 설계됨 혼합형 API를 제공하여 작은 코드 조각이나 기존 ..

[Hadoop] Pig + 실습

2022.02.06· #️⃣ Data Engineering/Hadoop

보호되어 있는 글입니다.

[Hadoop] MapReduce란 + 실습(Python)

2022.02.06· #️⃣ Data Engineering/Hadoop

보호되어 있는 글입니다.

[Hadoop] HDFS란

2022.02.06· #️⃣ Data Engineering/Hadoop

보호되어 있는 글입니다.

[Airflow] Airflow 설치 (Docker 이용)

2022.02.06· #️⃣ Data Engineering/Airflow

Airflow 설치 환경 : Docker가 설치된 Ubuntu 20.04 LTS 과정 1. 먼저 home 아래에 airflow라는 폴더를 만들고, 다음 파일들을 생성한다. 1) contraints-3.8.txt : airflow를 다운로드 받기 위해 필요한 requirement file이 필요함. 아래 명령어로 내용을 가져올 수 있다. wget https://raw.githubusercontent.com/apache/airflow/constraints-2.0.2/constraints-3.8.txt 2) Dockerfile : Docker image를 만들기 위한 설정 내용이 적혀있음 (강의 참고) # Base Image FROM python:3.8-slim LABEL maintainer="MarcLamb..

내 블로그 - 관리자 홈 전환	`Q` `Q`
새 글 쓰기	`W` `W`

글 수정 (권한 있는 경우)	`E` `E`
댓글 영역으로 이동	`C` `C`

이 페이지의 URL 복사	`S` `S`
맨 위로 이동	`T` `T`
티스토리 홈 이동	`H` `H`
단축키 안내	`Shift` + `/` `⇧` + `/`

#️⃣ Data Engineering

티스토리툴바

개인정보

단축키

내 블로그

블로그 게시글

모든 영역