반응형

SQLOptimization 2

[Apache Iceberg] 4. [핵심] 숨겨진 파티셔닝(Hidden Partitioning): 쿼리 작성의 실수를 없애다

안녕하세요! 여러분의 데이터 아키텍처 가이드, 팬돌프입니다.지난 시간, 우리는 Iceberg가 데이터 파일 변경 없이 스키마를 자유자재로 바꾸는 '스키마 진화'에 대해 배웠습니다. 엔지니어의 유지보수 고통을 덜어주는 아주 고마운 기능이었죠.오늘은 엔지니어를 넘어 데이터를 조회하는 분석가(Analyst)와 사용자들이 환호할 만한 기능을 소개합니다.혹시 Hive나 기존 데이터 레이크 환경에서 "파티션 컬럼을 WHERE 절에 안 넣어서 전체 데이터(Full Scan)를 다 읽어버리는 사고"를 겪어보신 적 있나요? 쿼리 한 번 잘못 날렸다가 클러스터가 멈추고 비용 폭탄을 맞는 끔찍한 경험이죠.Apache Iceberg의 숨겨진 파티셔닝(Hidden Partitioning)은 이러한 Human Error를 시스템..

[Looker] 6. 성능 최적화: 쿼리 비용을 줄이는 데이터 엔지니어의 전략

안녕하세요, IT 전문 블로거 팬돌프입니다.화려한 대시보드를 만들어 배포했는데, 로딩하는 데 30초가 걸린다면 사용자들이 좋아할까요? 아마 "루커는 느려서 못 쓰겠다"라는 불만이 터져 나올 겁니다. 게다가 BigQuery 콘솔에 들어가 보니, 단순한 조회 쿼리 하나가 수 TB(테라바이트)를 스캔하고 있다면? 아마 팀장님께 불려 갈지도 모릅니다.루커는 단순히 쿼리를 날리는 도구가 아닙니다. 쿼리를 가장 스마트하게 날리는 엔진입니다.오늘은 캐싱 전략부터 루커 성능 최적화의 꽃이라 불리는 집계 인식(Aggregate Awareness)까지, 쿼리 비용은 줄이고 속도는 10배 높이는 비법을 공개합니다.1. 캐싱 정책(Caching Policy): 가장 쉬운 성능 향상가장 먼저 점검해야 할 것은 캐시(Cache)..

반응형