10주차 3일차와 4일차에는 OpenAPI로 데이터를 가져와(Extract) → 변환하고(Tranform) → 이를 Redshift의 table로 저장(Load)하는 실습들을 진행하였다. 실습 정리에 앞서, Primary Key Uniqueness와 관련된 이론과 Upsert 기법을 짧게 정리후, 주제별로 총 3개의 실습을 순차적으로 정리하겠다. [ 구성 ] 1. Primary Key Uniqueness와 Upsert 기법 2. 실습1. Yahoo Finance API 로 애플 주식 읽어오기 (버전 3가지) 3. 실습2. RestCountries의 세계 나라 정보 API로 국가 정보 읽어오기 4. 실습3. Open Weathermap API로 서울 8일 낮/최소/최대 온도 읽어오기 (버전 3가지) * 위..
#️⃣ Data Engineering/Airflow
지난 교육에서는 Bash Operator를 이용하여 간단한 실습을 진행했다. 이번에는 Python Opertaor와 Connection/Variables 그리고 Xcom 등을 이용하여 저번에 작성한 간단한 ETL 프로세스 코드를 개선하는 실습을 진행했다. ≫ 이를 통해 Airflow 구동에 필요한 기본 문법들을 배울 수 있었다. 본 글에서는 코드와 관련된 기본 개념을 정리 후, 실습 내용을 정리한다. 벌써부터 앞으로 진행할 심화된 실습들이 기대된다 🏃♂️🔥 PART1. 기본 코드 및 개념 정리 #️⃣ 01. default_args 모든 테스크에 공통으로 적용될 설정 from datetime import datetime, timedelta default_args = { 'owner': 'hyemin', ..
이전글(링크)에서 Airflow에 대해 알아보았다. 이어서 Airflow를 설치하고 간단한 실습을 해보겠다. 설치는 직접 설치와 클라우드 서비스 이용하는 방법 2가지로 나뉘는데, 직접 설치하는 법(도커)을 중점적으로 정리한다. 01. Airflow 설치 방법 실무에서는 Airflow가 기본으로 서버 3대로 구동되어 비용 만만치 않음 가장 편리하고 좋은 것은 사양 좋은 ec2 인스턴스에 도커를 설치하고 이 위에 airflow를 구동하는 것임 (다만 최소 8gb의 메모리 요함) 개인 실습 용으로는 랩탑에 도커 설치하기 (1) 직접 설치 1. 로컬에 도커로 Airflow 설치 윈도우에서는 6GB, Mac기준 4GB 필요함 2. AWS EC2 리눅스(20.04)서버에 설치 t3.small나 t3a.small 인..
이번주 월요일부터 Airflowd의 기본 개념과 설치하는 방법을 학습했다. 학습을 진행하며 워커, 스케줄러 등 Airflow 구성요소와, 스케일링 방법을 배울 수 있었다. 차례대로 Airflow 정의와 구성 요소등을 정리하고, 다음 글에 이어서 설치하는 법을 정리하겠다. 01. Airflow란 가장 많이 사용되는 데이터 파이프라인 관리/작성 프레임워크 Airflow는 파이썬으로 작성된 데이터 파이프라인 (ETL) 프레임워크 데이터 파이프라인 스케줄링 지원 정해진 시간에 ETL 실행 혹은 한 ETL의 실행이 끝나면 다음 ETL 실행 웹 UI 제공 데이터 파이프라인(ETL)을 쉽게 만들 수 있음 다양한 데이터 소스와 데이터 웨어하우스를 쉽게 통합해주는 모듈 제공 Backfill 등 데이터 파이프라인 관리 관..
저번주 데브코스에서는 DW를 이용하여 대시보드를 구성하는 프로젝트를 진행했고, 이번주에는 데이터 파이프라인에 대해 알아보며 Airflow에 대해 학습을 진행 중이다. 오늘은 데이터 파이프라인이 무엇인지 알아보고, 용도에 따른 데이터 파이프라인 종류 그리고 데이터 파이프라인 설계 시 고려할 점을 살펴보며 마지막에는 ETL을 python으로 직접 구현해보는 실습으로 학습을 진행했다. 새롭게 알게된 것은 다음과 같다. 1. 데이터 파이프라인 종류를 명확히 나눌 수 있게 되었다. 기존에는 다양한 형태가 있다는 것만 알았지, 사용 용도에 따른 ETL 종류를 더 명확히 알게 되었다. 2. 데이터 파이프라인 만들 때, Full Refresh와 멱등성을 보장해야된다는 점 등 고려사항을 이번에 처음 듣고 알게 되었다. ..
Airflow 설치 환경 : Docker가 설치된 Ubuntu 20.04 LTS 과정 1. 먼저 home 아래에 airflow라는 폴더를 만들고, 다음 파일들을 생성한다. 1) contraints-3.8.txt : airflow를 다운로드 받기 위해 필요한 requirement file이 필요함. 아래 명령어로 내용을 가져올 수 있다. wget https://raw.githubusercontent.com/apache/airflow/constraints-2.0.2/constraints-3.8.txt 2) Dockerfile : Docker image를 만들기 위한 설정 내용이 적혀있음 (강의 참고) # Base Image FROM python:3.8-slim LABEL maintainer="MarcLamb..