저번주 데브코스에서는 DW를 이용하여 대시보드를 구성하는 프로젝트를 진행했고, 이번주에는 데이터 파이프라인에 대해 알아보며 Airflow에 대해 학습을 진행 중이다. 오늘은 데이터 파이프라인이 무엇인지 알아보고, 용도에 따른 데이터 파이프라인 종류 그리고 데이터 파이프라인 설계 시 고려할 점을 살펴보며 마지막에는 ETL을 python으로 직접 구현해보는 실습으로 학습을 진행했다. 새롭게 알게된 것은 다음과 같다. 1. 데이터 파이프라인 종류를 명확히 나눌 수 있게 되었다. 기존에는 다양한 형태가 있다는 것만 알았지, 사용 용도에 따른 ETL 종류를 더 명확히 알게 되었다. 2. 데이터 파이프라인 만들 때, Full Refresh와 멱등성을 보장해야된다는 점 등 고려사항을 이번에 처음 듣고 알게 되었다. ..
ALL
2차 프로젝트 후 후기 (줄글) 이번엔 분석 ELT 쪽을 맡아 비교적 개발이 없었다. 코드를 짜는 것이라곤 주피터 노트북 이용해서 pandas로 EDA 검증 코드를 짜는 것이어서 개발 업무는 적었다. 그러나 그렇다고 안 바쁜 건 아니었다. 내가 주로 해야됐던건, 데이터 셋 상태가 괜찮은지 필드별, 레코드별 결측치 밑 범주 및 분포를 확인하는 EDA 작업과 분석 차트 생성이었다. 이번 프로젝트로 알게 된 점 1. 난 개발이 더 맞다 - 분석하며 데이터 다룰 수 있어서 재밌긴 하지만, 개발과 비교 시 같은 시간 노력대비 결과물은 개발이 더 낫다. (분석 쪽은 눈에 띄는 결과물이 거의 없다) 2. 로데이터 상태가 진짜 안 좋으면 수정하고 신경 쓸게 많구나 느낌 3. 데이터 수집하는 데이터 엔지니어와 품질검사하..
데브코스 미니 텀 프로젝트를 진행하며 분석파트를 맡게 되었다. 저번에는 데이터 수집단에서 주로 활동을 했어서, 이번엔 데이터를 직접 분석해보고 시각화해보고 싶은 마음에 선택하게 되었다. 시각화 툴로는 이전 실습때 사용했던 Superset을 사용하게 되었는데, 분석 데이터에 맞는 시각화 차트를 선택하기 위해 chart 종류와 사용 사례를 알아보고 정리해보았다. 시각화 chart 종류 요약 (Superset) Chart Name 요약 사용하는 경우 예시 Area Chart 개별값이 아닌 전체 추세를 보여주는 용도. • 데이터 총계가 있고, 비교할 기간이 있을 경우 • 차트 요점은 개별 값이 아닌 전체 추세 전달함 • 부분 대 전체 관계를 갖는 여러 데이터 열 또는 누적 값 열이 있음 특정 제품을 구입한 연령..
들어가며 이번주 Redshift부터 Snowflake등을 배우고, 오늘 대시보드에 대해 학습하였다. 8주의 마지막의 날인 오늘은 앞서 배운 Redshift와 대시보드를 활용하여 데이터를 시각화해보는 실습을 진행한다. 실습 개요는 다음과 같다. "실습 소개 및 준비단계" 1. 실습명 AWS Redshift의 analytics 스키마의 테이블 2개를 Superset에서 2개의 chart로 만들고 대시보드로 시각화하기 부제 : Superset에서 NPS 컬럼 차트를 KPI 대시보드에 추가하기 (1) 목표 결과물 채널별 Monthly Active User차트 dataset은 S3의 analytics.user_session_summary 기반 Monthly Cohort 차트 dataset은 S3의 analytic..
지난 포스팅에 이어서, superset에 대해 더 자세히 알아보고 docker로 설치해보겠다. Superset이란? Airbnb에서 시각된 오픈소스로, Airflow를 만든 Maxim이 같이 시작한 오픈소스이다. 깃허브 (https://github.com/apache/superset) 있음 상용화 서비스 시작됨 Maxim이 직접 창업했으며 https://preset.io 가서 계정 생성 후 실습 가능함 1. 특징 다양한 Visualization 가능하며 직관적인 UI 대시보드 공유 보안과 권한 제어 기능 제공 SQLAlchemy와 연동되어, SQLAlchemey와 연동되는 모든 데이터베이스를 사용가능함 ✨ Druid.io연동하여 실시간 데이터 시각화 가능 API와 플러그인이 있어 확장성 좋음 role 기..
들어가며 오늘은 시각화 툴에 대해 학습했다. 시각화 툴 그리고 대시보드, BI 툴은 모두 같은 말로, 주로 KPI등 데이터 기반으로 계산/분석/표시해주는 툴을 의미한다. 이전에 시각화 툴로는 Tableau 만 이름을 듣고 아는 정도 였는데, Looker, Superset 등 다양한 시각화 툴들의 각각의 특징을 알아볼 수 있었다. 이 다음엔 AWS Redshift의 데이터를 가져와서 Superset으로 시각화해보는 실습을 정리할 예정이다. 본론으로 들어가 시각화 툴과 종류를 알아보자. 시각화 툴과 종류 1. 시각화 툴이란? (시각화 = 대시보드 = BI) 툴 KPI 지표 등 데이터 기반으로 계산/분석/표시해주는 툴 이는 Data-driven Decision, Data-Informed Decision 가능하..