#️⃣ Data Engineering/Spark

제곧내 데이터 적재를 EC2를 통해 S3까지 성공했지만, 금전적인 문제로 Spark 처리는 로컬로 하게 되었다😂 코랩에서 Spark를 사용하여 S3의 json 파일을 읽어오고자 한다. 01. S3 버킷 권한 설정 이를 위해서는 먼저 S3의 권한을 public으로 변경해야만 한다. 권한 설정은 따로 글로 정리해두었다 "S3버킷 권한 설정 : https://hyem207.tistory.com/90 [AWS S3 오류] Forbidden (Service: Amazon S3; Status Code: 403; Error Code: 403 Forbidden; 사건 설명 외부(Colab)에서 s3 객체를 불러오고 싶었는데, 다음과 같은 오류가 떴다. getFileStatus on s3a://(버킷명/(불러올파일).j..
지난 1편에서는 실습에 쓰일 코드를 살펴보았다. 이어서 직접 실행을 해보자. 1편 : https://hyem207.tistory.com/57 [Spark] Spark Streaming - Twitter 해시태그 분석 (1) Spark Streaming을 이용한 실습을 찾아보던 중 twitter API를 이용하여 실시간 데이터를 받아와 Spark 로 해시태그를 분석해보는 예제를 찾아볼 수 있었다. 찾은 예제들은 Twitter API version.. hyem207.tistory.com 📜 Spark Streaming으로 Twitter API의 해시태그 분석하기 : Twitter에서 kpop으로 필터링 한 데이터를 실시간으로 가져와 해시태그(#) 분석해보기 실습 결과 미리 보기 A. 준비단계 docker h..
Spark Streaming을 이용한 실습을 찾아보던 중 twitter API를 이용하여 실시간 데이터를 받아와 Spark 로 해시태그를 분석해보는 예제를 찾아볼 수 있었다. 찾은 예제들은 Twitter API version 1을 이용하여 것들이 대부분이라 twitter 개발자 github예제의 twitter api version2의 코드를 참고하여 재구성하였다. 또한 spark 분석 코드를 변형하여 콘솔에 해시태그 집계 결과가 출력되도록 바꾸어 실습을 진행하였다. 📜 Spark Streaming으로 Twitter API의 해시태그 분석하기 : Twitter에서 kpop으로 필터링 한 데이터를 실시간으로 가져와 해시태그(#) 분석해보기 실습 결과 미리 보기 A. 준비단계 docker hub에서 실습 도커..
1 | 이벤트시간 윈도우, 워터마크 1-1 | 이벤트 시간 윈도우 (event-time window) 📌 이벤트 시간 윈도우란, 행의 이벤트 시간이 속하는 윈도우별로 집계(그룹화)하는 것을 말한다. 이벤트 시간 윈도우는 '이벤트 시간 처리' 개념에서 비롯된 것이다. 이벤트 시간 윈도우란 행의 이벤트 시간이 속하는 윈도우 별로 집계 즉 그룹화 하는 것을 말한다. 있는데 이를 쉽게 풀어서 설명하면, 이벤트가 실제로 발생한 이벤트 시간대 별로 스트리밍으로 들어온 데이터를 카운트하는 것을 말한다. 예를 들면 계속해서 스트리밍으로 들어오는 이벤트가 있다고 가정하면, 10분 간격으로 이벤트들을 이벤트 생성 시간 기준으로 이 이벤트들을 집계 하는 것을 한다. 여기 설명에서 행이라고 지칭한 이유는 structured ..
이전에 블로그에 정리했던 글을 동아리 스터디를 위해 한 번 더 정리한 글이다. 기록을 위해 블로그에도 남긴다. 이전 정리글 :https://hyem207.tistory.com/43 [Hadoop] Spark란 + 실습 보호되어 있는 글입니다. 내용을 보시려면 비밀번호를 입력하세요. hyem207.tistory.com 목차 1 | Spark란 2 | Spark 정의 및 등장 배경 2-1 | Spark란 2-2 | Spark 등장 배경 3| Spark Architecture 4 | Spark SQL실습 1 | Spark란 간략 소개 The most widely-used engine for scalable computing Thousands of companies, including 80% of the For..
환경 : VMWare WorkStation _ Ubuntu 21.04.02 LTS 01 | JAVA 설치 과정 먼저 Spark를 설치하기 위해서는 JAVA 8버전 이상이 설치되어 있어야 한다. java-version (혹은 javac -version) 명령어로 JAVA가 설치되어 있는지 확인하고, 설치가 안 되었다면 다음 과정을 통해 설치하자. 1. openjdk 다운로드 다음 명령어로 JAVA JDK를 다운 받는다. sudo apt-get install openjdk-8-jdk java -version다음 명령어로 자바가 잘 설치되었는지 확인하고, 잘 되었다면 readlink 명령어로 설치 경로를 복사한다. $ java -version openjdk version "1.8.0_312" $ which j..
HyeM207
'#️⃣ Data Engineering/Spark' 카테고리의 글 목록