반응형

Dag 2

[Apache Spark] 6. [아키텍처] 셔플링(Shuffling)의 공포와 내부 동작 원리 (Job, Stage, Task)

안녕하세요! 여러분의 스파크 가이드, 팬돌프입니다.지난 시간까지 우리는 Spark SQL과 집계 함수를 이용해 데이터를 마음껏 주물러 보았습니다. 로컬에서 작은 데이터로 연습할 때는 1초 만에 결과가 나왔을 겁니다.하지만 회사에 가서 수 테라바이트의 데이터를 돌려보는 순간, 당황스러운 상황을 마주하게 됩니다. "어? 로컬에선 잘 되던 코드가 왜 이렇게 느리지? 왜 자꾸 멈추지?"이유는 단 하나, 여러분이 작성한 코드가 클러스터 내부에서 어떻게 쪼개져서 실행되는지 몰랐기 때문입니다. 오늘은 스파크 성능의 핵심이자, 튜닝을 위해 반드시 알아야 할 내부 아키텍처(Job, Stage, Task)와 공포의 대상인 셔플링(Shuffling)에 대해 파헤쳐 보겠습니다.1. 스파크의 작업 계층: Job > Stage ..

[Airflow] Airflow(에어플로우) 파헤치기

안녕하세요! IT 전문 블로거를 꿈꾸는 개발자, 팬돌프입니다.Apache Superset 이후 제가 실무에서 가장 많이 사용하던 도구 중 데이터 파이프라인의 필수 도구로 자리 잡은 Apache Airflow(아파치 에어플로우)에 대해 깊이 있게 알아보는 시간을 갖겠습니다. 데이터 엔지니어링에 관심이 있으시거나, 복잡한 데이터 작업을 자동화하고 관리하는 데 어려움을 겪고 계신 분들이라면 앞으로 연재될 Airflow의 내용이 도움이 되실꺼라 생각됩니다.📋 연재 개요목표: Apache Airflow를 활용한 데이터 파이프라인 구축의 모든 것을 체계적으로 다루는 기술 블로그 연재대상 독자: 데이터 엔지니어, 백엔드 개발자, DevOps 엔지니어, 데이터 분석가1편: Apache Airflow 완전 정복 - 데..

반응형