반응형

WindowFunctions 2

[Apache Spark] 8. [확장] Kafka와 만난 Spark: Structured Streaming으로 구축하는 실시간 데이터 파이프라인

안녕하세요! 여러분의 영원한 데이터 엔지니어링 파트너, 팬돌프입니다.드디어 대장정의 마지막 순간이 왔습니다. 지난 1편부터 7편까지 우리는 스파크의 기본 개념부터 DataFrame, SQL 분석, 그리고 심화 튜닝 기술까지 숨 가쁘게 달려왔습니다. 이제 여러분은 이미 대용량 배치(Batch) 데이터를 처리하는 데 있어서는 준전문가 수준에 도달하셨습니다.하지만 현대의 데이터 환경은 멈춰 있지 않습니다. 데이터는 24시간 쉴 새 없이 흐릅니다. "어제 데이터 말고, 지금 당장 들어오는 매출 데이터를 보고 싶어!" 이런 요구사항에 대응하기 위해, 마지막 퍼즐 조각인 실시간 스트리밍(Streaming)을 맞춰보겠습니다.우리가 초반에 다뤘던 '카프카(Kafka)'와 오늘 배울 '스파크(Spark)'가 만나면 어떤..

[Apache Spark] 5. [심화] Spark SQL과 집계 연산: 데이터 분석의 날개를 달다

안녕하세요! 여러분의 데이터 셰프, 팬돌프입니다.지난 4편에서는 지저분한 데이터를 깨끗하게 다듬는 '데이터 랭글링' 기술을 익혔습니다. 재료 손질이 끝났다면 이제 본격적으로 불을 지피고 맛있는 요리를 만들어낼 차례입니다.데이터 엔지니어링의 꽃은 결국 데이터 속에 숨겨진 통찰(Insight)을 찾아내는 것입니다. "어떤 상품이 가장 많이 팔렸지?", "부서별 평균 연봉은 얼마지?" 같은 질문에 답하는 과정이죠.오늘 소개할 Spark SQL과 집계 함수는 여러분에게 엑셀의 피벗 테이블, 혹은 그 이상의 강력한 분석 능력을 선사할 것입니다. 자, 시작해 볼까요?1. "나는 SQL이 더 편한데..." : Spark SQL의 마법많은 개발자와 데이터 분석가들에게 SQL은 모국어와 같습니다. PySpark의 함수(..

반응형