견고한 데이터 파이프라인 구축을 위한 사전 지식 쌓기 책 : OREILLY 데이터 파이프라인 핵심 가이드 공부 일자 : 23.09.06 ~ 23.09.10 데브코스 끝난 후, 마지막 특강에서 멘토님께서 추천해주신 책을 읽어보았다. 책의 내용은 데이터 파이프라인 관리 및 구축법, 클라우드 인프라에서 파이프라인 구축 방법 등 전반적인 데이터 엔지니어링 업무 및 파이프라인 설계 지식이 담겨 있다. 내용은 그리 얕지도 깊이있지도 않기에, 지금까지 배운 데이터 엔지니어 지식들을 정리하기에 좋았고, 코드와 내용도 그리 어렵지 않아 술술 빠르게 읽을 수 있었다. 난이도 : ⭐⭐⭐ 추천 : ⭐⭐⭐⭐ 책을 읽으면서 알았지만 새롭게 다가온 내용들 혹은 몰랐던 내용들을 아래에 기록해본다. 핵심 내용 요약 ▶️ 지저분한 데이..
#️⃣ 책 리뷰
Chapter 02 | 빅데이터의 탐색 2-1. 크로스 집계의 기본 데이터 시각화의 기본은 '크로스 집계' 1) 용어 정리 크로스 테이블 : 행은 상품명, 열은 매출 월, 행/열 교차부분에는 숫자 데이터 트랜젝션 테이블 : 행에 데이터가 추가되는 형식 (열 방향 증가 X) - DB 형태 크로스 집계 : 트랜잭션 테이블 -> 크로스 테이블로 변환하는 과정 (엑셀의 피벗테이블) 룩업 테이블 : 트랜젝션 테이블에 새로운 항목을 추가하는 것이 아닌, 다른 테이블과 결합할 때 사용됨 크로스 테이블은 시각적으로는 보기 편하지만, DB에서 다루기는 힘든 데이터 형식 반면 트랜젝션 테이블은 db에서 다루는 데이터 형식 2) 크로스 집계 방법 BI 도구인 Tableau를 이용하여 테이블 결합 Pandas의 pivot_t..
Hadoop과 Spark를 책으로 공부하고 있던 중에 빅데이터 관련하여 감이 안 잡히고, 개념 등을 제대로 알지 못한 것을 깨달았다. 기술을 본격적으로 공부하기 전에, 기초를 잡기 위해 꽤 추천받았던 '빅데이터를 지탱하는 기술' 책을 읽기로 결정하였다. 이 책을 아직 챕터 1밖에 읽진 않았지만, 읽기 참 잘 했다는 생각이 든다. 이전에는 데이터 마트, 데이터 웨어하우스, 파이프라인, 데이터 레이크 등등을 알지 못했는데, 해당 책의 챕터1 만을 통해 빅데이터란 무엇이고, 어떤 목적을 위해 구축되고, 시스템/프로세스들의 구성 등의 개념을 명확히 알게되었다. (참고로 그림구성과 설명이 정말 이해하기 쉽도록 기술되어 있다. 추천 별 5개 ⭐⭐⭐⭐⭐) 목표는 하루 당 챕터 하나씩 읽고 정리하여 빠르게 기초를 잡은..
공부 일자 : 21.12.14 화 ~ 15 수 1장 | 깨끗한 코드 유명한 프로그래머들에게 ‘깨끗한 코드’에 대한 의견을 물어봄. [ 인물 별 주요 키워드 정리 ] 비야네 스트롭스트룹 - 우아한 (보기에 즐거운) - 효율 그래디부치 - 가독성 빅 데이브 토마스 - 가독성 - 다른 사람이 수정하기 쉬움 - 테스트 케이스 존재 마이클 페더스 - 코드를 '주의' 깊게 짜는 것 론 제프리스 - 중복 줄이기 - 표현력 높이기 (한 기능만 수행, 제대로 표현) 워드 커닝햄 - "짐작했던 대로 수행" → 독해률↑ ⇒ Robert.C.Martin (밥 아저씨) : 동료들과 함께 깨끗한 코드 정의함 2장 | 의미있는 이름 1. 의도를 분명히 밝히기 - 함수 존재 이유, 수행기능, 사용방법을 유추할 수 있어야 함 - 코드..