#️⃣ Data Engineering

들어가며 이번주 Redshift부터 Snowflake등을 배우고, 오늘 대시보드에 대해 학습하였다. 8주의 마지막의 날인 오늘은 앞서 배운 Redshift와 대시보드를 활용하여 데이터를 시각화해보는 실습을 진행한다. 실습 개요는 다음과 같다. "실습 소개 및 준비단계" 1. 실습명 AWS Redshift의 analytics 스키마의 테이블 2개를 Superset에서 2개의 chart로 만들고 대시보드로 시각화하기 부제 : Superset에서 NPS 컬럼 차트를 KPI 대시보드에 추가하기 (1) 목표 결과물 채널별 Monthly Active User차트 dataset은 S3의 analytics.user_session_summary 기반 Monthly Cohort 차트 dataset은 S3의 analytic..
지난 포스팅에 이어서, superset에 대해 더 자세히 알아보고 docker로 설치해보겠다. Superset이란? Airbnb에서 시각된 오픈소스로, Airflow를 만든 Maxim이 같이 시작한 오픈소스이다. 깃허브 (https://github.com/apache/superset) 있음 상용화 서비스 시작됨 Maxim이 직접 창업했으며 https://preset.io 가서 계정 생성 후 실습 가능함 1. 특징 다양한 Visualization 가능하며 직관적인 UI 대시보드 공유 보안과 권한 제어 기능 제공 SQLAlchemy와 연동되어, SQLAlchemey와 연동되는 모든 데이터베이스를 사용가능함 ✨ Druid.io연동하여 실시간 데이터 시각화 가능 API와 플러그인이 있어 확장성 좋음 role 기..
들어가며 오늘은 시각화 툴에 대해 학습했다. 시각화 툴 그리고 대시보드, BI 툴은 모두 같은 말로, 주로 KPI등 데이터 기반으로 계산/분석/표시해주는 툴을 의미한다. 이전에 시각화 툴로는 Tableau 만 이름을 듣고 아는 정도 였는데, Looker, Superset 등 다양한 시각화 툴들의 각각의 특징을 알아볼 수 있었다. 이 다음엔 AWS Redshift의 데이터를 가져와서 Superset으로 시각화해보는 실습을 정리할 예정이다. 본론으로 들어가 시각화 툴과 종류를 알아보자. 시각화 툴과 종류 1. 시각화 툴이란? (시각화 = 대시보드 = BI) 툴 KPI 지표 등 데이터 기반으로 계산/분석/표시해주는 툴 이는 Data-driven Decision, Data-Informed Decision 가능하..
들어가기 전에 오늘 8주차 4일자는 Snowflake를 학습했다. 어제까지는 Redshfit를 사용했는데, Snowflake로 넘어오니까 UI가 빛이 난다...🎇✨ UI가 직관적으로 짜여있어서 작업환경 왔다갔다할때 편리했고, 무엇보다 워크시트 옵션(warehouse, 권한 설정, 특정 줄만 실행 등등)들이 너무 편리했다. 물론 Redshift와 Snowflake를 많이 깊게 다뤄본건 아니지만, 지금까지 사용한 후기는 그렇다! 이제 본론을 들어가서 Snowflake 실습 내용은 같다. 실습 내용 1. Snowflake로 database와 스키마를 생성한다. 2. 스키마 아래에 테이블을 만든다. 3. AWS S3에 있는 csv 파일을 2번에서 만든 테이블로 data를 copy한다. (Burk Update) ..
📘Snowflake 이론 1. Snowflake란 클라우드 기반 데이터 웨어하우스 멀티 클라우드 (AWS, GCP, Azure위에서 모두 동작함) Data Sharing/MarketPlace (개념링크) ETL, 다양한 데이터 통합 기능 제공 2. 특징 멀티 클라우드와 다른 지역에 있는 데이터 공유(Cross-Region Replication) 가변 비용 모델 스토리지와 컴퓨팅 인프라가 별도로 설정됨 SQL 기반 + 비구조화 데이터 처리 + ML 기능 제공 다양한 데이터 포맷 제공 배치 데이터 중심 + 실시간 데이터 처리 지원] Time Travel (과거 데이터 쿼리 기능) 웹콘솔, Python API, ODBC/JDBC 연결 지원 자체 스토리지 + 클라우드 스토리지를 외부 테이블로 사용 가능 3. 계..
제곧내 데이터 적재를 EC2를 통해 S3까지 성공했지만, 금전적인 문제로 Spark 처리는 로컬로 하게 되었다😂 코랩에서 Spark를 사용하여 S3의 json 파일을 읽어오고자 한다. 01. S3 버킷 권한 설정 이를 위해서는 먼저 S3의 권한을 public으로 변경해야만 한다. 권한 설정은 따로 글로 정리해두었다 "S3버킷 권한 설정 : https://hyem207.tistory.com/90 [AWS S3 오류] Forbidden (Service: Amazon S3; Status Code: 403; Error Code: 403 Forbidden; 사건 설명 외부(Colab)에서 s3 객체를 불러오고 싶었는데, 다음과 같은 오류가 떴다. getFileStatus on s3a://(버킷명/(불러올파일).j..
HyeM207
'#️⃣ Data Engineering' 카테고리의 글 목록 (4 Page)