전체 글

"Reflections and Growth Through Records" 회고와 기록을 통한 성장으로
💁‍♀️내용 정리에 앞서, 책 읽게 된 이유 데브코스 하며 Airflow 학습하고 실제 프로젝트에 적용해보는 경험을 했다. 하지만 최종 프로젝트를 하며 Airflow를 조금 더 깊게 학습하고 제대로 공부하고 싶다는 생각에 책을 구입하게 되었다. 또한, 9월에 프로젝트를 종료하고 두 달 정도 지나니 머리속에서 가물가물해져 복습할겸 책을 읽어본다. 한 챕터씩 읽고 글로 정리하는 목표로 읽어보자 Ch1. Airflow 살펴보기 Airflow 주요 기능 유연한 파이썬 프레임워크를 사용해 쉽게 데이터 파이프라인 구축 가능하며, 서로 다른 기술들을 연결할 수 있는 다양한 빌딩 블록 제공 Airflow 는 직접 데이터 처리 X → 데이터 처리를 위한 다양한 구성 요소들을 조정 방향성 비순환 그래프 (Directed ..
견고한 데이터 파이프라인 구축을 위한 사전 지식 쌓기 책 : OREILLY 데이터 파이프라인 핵심 가이드 공부 일자 : 23.09.06 ~ 23.09.10 데브코스 끝난 후, 마지막 특강에서 멘토님께서 추천해주신 책을 읽어보았다. 책의 내용은 데이터 파이프라인 관리 및 구축법, 클라우드 인프라에서 파이프라인 구축 방법 등 전반적인 데이터 엔지니어링 업무 및 파이프라인 설계 지식이 담겨 있다. 내용은 그리 얕지도 깊이있지도 않기에, 지금까지 배운 데이터 엔지니어 지식들을 정리하기에 좋았고, 코드와 내용도 그리 어렵지 않아 술술 빠르게 읽을 수 있었다. 난이도 : ⭐⭐⭐ 추천 : ⭐⭐⭐⭐ 책을 읽으면서 알았지만 새롭게 다가온 내용들 혹은 몰랐던 내용들을 아래에 기록해본다. 핵심 내용 요약 ▶️ 지저분한 데이..
Airflow 운영 1. dag 폴더 및 스캔 주기 수정 airflow.cfg 폴더의 dags_folder 수정 필요 dag_dir_list_interval : dags_folder를 스캔하는 주기 설정 (초단위) 2. Airflow Database 업그레이드 Core 섹션의 sql_alchemy_conn : Sqlite가 아닌 Postgres나 MySQL로 변경 해당 DB는 주기적으로 백업되어야 함 → (8번에서 자세히) 3. Executor 변경 기본은 SequentialExecutor Single Server 일 경우 : LocalExecutor나 CeleryExecutor Cluster 일 경우 : CeleryExecutor나 KubernetesExecutor 4. Authentication 활성..
Google Cloud Composer Cloud Composer 환경 아키텍처 | Google Cloud Cloud Composer 환경 아키텍처 | Google Cloud Airflow Summit 2023 9월 19일부터 21일까지 Airflow Summit 2023 컨퍼런스가 열리는 동안 Airflow 커뮤니티에 참여하여 Airflow에 대해 자세히 알아보고 전문 지식을 공유해 보세요. 접수 시작 의견 보내기 Cloud C cloud.google.com 완전 관리형 서비스를 조사한 이유! 프로젝트 규모를 보면 Airflow DAG가 최대 5개로 예측되며, DAG당 작업량이 적음 확장성을 크게 고려할 필요없음 안정성과 프로젝트 기간, 관리 측면에서 볼 때 다른 부분도 신경써야 될 부분 많음 추상화 ..
Kubernetes 구성요소 Kubernetes 기본 구조는 Master-Node Node: 물리 서버/가상 서버 클러스터 : Node의 집합 Master : 클러스터를 관리해주는 역할 #️⃣Master Cluster의 주 컨트롤러 GUI나 CLI로 마스터와 통신하며 YAML 구성 파일로 작업한다. Master는 모든 노드 이벤트를 관리하고, 전체 클러스터 구성을 안정적이게 유지한다. Master의 구성요소는 다음과 같다. Kube-APIserver ETCD Kube-Scheduler kube-controller-manager ▶ Kube-APIserver Kubernets의 프런트엔드(control plane) 즉 Endpoint API 호출과 REST 서비스를 처리하여, 개발자가 클러스터와 통신할 수..
오늘은 Docker를 배우는 마지막 날이라 Docker의 전반적인 학습 내용을 정리하며, Production에서 사용 시 주의점 그리고 Container Orchestration에 대해 학습하였다. 그리고 강의에서 Container Orchestration이 무엇인지 알아보며 K8s 컴포넌트 구조를 간단하게 설명주셨는데, 평소에 쿠버네티스가 궁금했던 터라 K8s에 대해 더 찾아보았다. (다음글 : https://hyem207.tistory.com/121) 우선은 아래에 오늘 배운 내용을 정리해본다. #️⃣ Docker를 실제 Production 환경에서 사용할 때 주의할 점 Production에서는 Docker volumes 를 named volumes 를 써야된다. Docker container는 re..
HyeM207
HYEM's Storage