#️⃣ Data Engineering

지난 1편에서는 실습에 쓰일 코드를 살펴보았다. 이어서 직접 실행을 해보자. 1편 : https://hyem207.tistory.com/57 [Spark] Spark Streaming - Twitter 해시태그 분석 (1) Spark Streaming을 이용한 실습을 찾아보던 중 twitter API를 이용하여 실시간 데이터를 받아와 Spark 로 해시태그를 분석해보는 예제를 찾아볼 수 있었다. 찾은 예제들은 Twitter API version.. hyem207.tistory.com 📜 Spark Streaming으로 Twitter API의 해시태그 분석하기 : Twitter에서 kpop으로 필터링 한 데이터를 실시간으로 가져와 해시태그(#) 분석해보기 실습 결과 미리 보기 A. 준비단계 docker h..
Spark Streaming을 이용한 실습을 찾아보던 중 twitter API를 이용하여 실시간 데이터를 받아와 Spark 로 해시태그를 분석해보는 예제를 찾아볼 수 있었다. 찾은 예제들은 Twitter API version 1을 이용하여 것들이 대부분이라 twitter 개발자 github예제의 twitter api version2의 코드를 참고하여 재구성하였다. 또한 spark 분석 코드를 변형하여 콘솔에 해시태그 집계 결과가 출력되도록 바꾸어 실습을 진행하였다. 📜 Spark Streaming으로 Twitter API의 해시태그 분석하기 : Twitter에서 kpop으로 필터링 한 데이터를 실시간으로 가져와 해시태그(#) 분석해보기 실습 결과 미리 보기 A. 준비단계 docker hub에서 실습 도커..
1 | 이벤트시간 윈도우, 워터마크 1-1 | 이벤트 시간 윈도우 (event-time window) 📌 이벤트 시간 윈도우란, 행의 이벤트 시간이 속하는 윈도우별로 집계(그룹화)하는 것을 말한다. 이벤트 시간 윈도우는 '이벤트 시간 처리' 개념에서 비롯된 것이다. 이벤트 시간 윈도우란 행의 이벤트 시간이 속하는 윈도우 별로 집계 즉 그룹화 하는 것을 말한다. 있는데 이를 쉽게 풀어서 설명하면, 이벤트가 실제로 발생한 이벤트 시간대 별로 스트리밍으로 들어온 데이터를 카운트하는 것을 말한다. 예를 들면 계속해서 스트리밍으로 들어오는 이벤트가 있다고 가정하면, 10분 간격으로 이벤트들을 이벤트 생성 시간 기준으로 이 이벤트들을 집계 하는 것을 한다. 여기 설명에서 행이라고 지칭한 이유는 structured ..
이전에 블로그에 정리했던 글을 동아리 스터디를 위해 한 번 더 정리한 글이다. 기록을 위해 블로그에도 남긴다. 이전 정리글 :https://hyem207.tistory.com/43 [Hadoop] Spark란 + 실습 보호되어 있는 글입니다. 내용을 보시려면 비밀번호를 입력하세요. hyem207.tistory.com 목차 1 | Spark란 2 | Spark 정의 및 등장 배경 2-1 | Spark란 2-2 | Spark 등장 배경 3| Spark Architecture 4 | Spark SQL실습 1 | Spark란 간략 소개 The most widely-used engine for scalable computing Thousands of companies, including 80% of the For..
환경 : VMWare WorkStation _ Ubuntu 21.04.02 LTS 01 | JAVA 설치 과정 먼저 Spark를 설치하기 위해서는 JAVA 8버전 이상이 설치되어 있어야 한다. java-version (혹은 javac -version) 명령어로 JAVA가 설치되어 있는지 확인하고, 설치가 안 되었다면 다음 과정을 통해 설치하자. 1. openjdk 다운로드 다음 명령어로 JAVA JDK를 다운 받는다. sudo apt-get install openjdk-8-jdk java -version다음 명령어로 자바가 잘 설치되었는지 확인하고, 잘 되었다면 readlink 명령어로 설치 경로를 복사한다. $ java -version openjdk version "1.8.0_312" $ which j..
Apache Spark에 대한 자세한 설명은 저번 글에서 설명한 적이 있다. 오늘은 강의를 들으며 배운 Spark를 정리하도록 하겠다. 구성은 Spark에 대한 간단한 설명과 Hortonworks로 진행한 실습을 정리한다. [ 목차 ] https://hyem207.tistory.com/24 [스파크 완벽 가이드] CH.1_아파치 스파크란 01 | 아파치 스파크 스파크(Spark)란 통합 컴퓨팅 엔진, 클러스터 환경에서 데이터를 병렬로 처리하는 라이브러리 집합 (병렬 처리 오픈소스 엔진) * 클러스터 : 두 개 이상의 노드에 걸쳐있는 여러 hyem207.tistory.com Spark 01 | Spark란 ? Spark란 " A fast and general engine for large-scael dat..
HyeM207
'#️⃣ Data Engineering' 카테고리의 글 목록 (6 Page)