반응형

PartitionPruning 2

[Apache Iceberg] 4. [핵심] 숨겨진 파티셔닝(Hidden Partitioning): 쿼리 작성의 실수를 없애다

안녕하세요! 여러분의 데이터 아키텍처 가이드, 팬돌프입니다.지난 시간, 우리는 Iceberg가 데이터 파일 변경 없이 스키마를 자유자재로 바꾸는 '스키마 진화'에 대해 배웠습니다. 엔지니어의 유지보수 고통을 덜어주는 아주 고마운 기능이었죠.오늘은 엔지니어를 넘어 데이터를 조회하는 분석가(Analyst)와 사용자들이 환호할 만한 기능을 소개합니다.혹시 Hive나 기존 데이터 레이크 환경에서 "파티션 컬럼을 WHERE 절에 안 넣어서 전체 데이터(Full Scan)를 다 읽어버리는 사고"를 겪어보신 적 있나요? 쿼리 한 번 잘못 날렸다가 클러스터가 멈추고 비용 폭탄을 맞는 끔찍한 경험이죠.Apache Iceberg의 숨겨진 파티셔닝(Hidden Partitioning)은 이러한 Human Error를 시스템..

[Apache Iceberg] 2. [구조] Iceberg의 해부학: 메타데이터 계층 구조 완벽 분석

안녕하세요! 여러분의 데이터 아키텍처 길잡이, 팬돌프입니다.지난 1편에서는 왜 우리가 디렉토리 기반의 Hive 방식을 버리고, Apache Iceberg라는 새로운 테이블 포맷을 선택해야 하는지 그 배경을 알아보았습니다. "파일이 아닌 메타데이터로 관리한다"는 개념, 기억나시나요?하지만 "메타데이터로 관리한다"는 말이 정확히 무슨 뜻일까요? 단순히 파일 목록을 적어놓은 메모장 같은 걸까요?Iceberg가 수십 억 개의 파일 중에서 내가 원하는 데이터를 0.1초 만에 찾아내는 비결은 바로 치밀하게 설계된 계층형 메타데이터 구조에 있습니다. 오늘은 엔지니어들이 가장 궁금해하고, 또 가장 어려워하는 Iceberg의 내부 해부도를 아주 상세하게 펼쳐보겠습니다.1. 디렉토리(Directory)가 아닌 트리(Tre..

반응형