반응형

compaction 2

[Apache Iceberg] 8. [실전] Spark & Trino와 연동하여 레이크하우스 구축하기

안녕하세요! 여러분의 데이터 아키텍처 길잡이, 팬돌프입니다.드디어 Apache Iceberg 완전 정복 시리즈의 마지막 편에 도착했습니다. 지난 7편 동안 우리는 Iceberg의 철학부터 구조, 트랜잭션, 그리고 타임 트래블 같은 고급 기능까지 깊이 있게 파헤쳤습니다. 이론적인 무장은 이제 완벽합니다.하지만 구슬이 서 말이라도 꿰어야 보배겠죠? 오늘은 이 강력한 기술을 여러분의 현업 시스템에 실제로 적용하는 방법을 다룹니다.데이터 가공(ETL)의 제왕 Apache Spark, 그리고 초고속 대화형 쿼리의 강자 Trino(구 PrestoSQL). 이 두 엔진을 Iceberg와 연결하여 진정한 데이터 레이크하우스를 구축하는 설정법과, 운영자가 반드시 챙겨야 할 유지보수 루틴까지 꽉 채워 담았습니다.대장정의 ..

[Apache Iceberg] 6. [성능] Row-Level Update와 Merge-on-Read (MOR) vs Copy-on-Write (COW)

안녕하세요! 여러분의 데이터 아키텍처 길잡이, 팬돌프입니다.지난 시간, 우리는 Iceberg가 어떻게 파일 시스템 위에서 트랜잭션(ACID)을 보장하는지 배웠습니다. 데이터의 안정성이 확보되었으니, 이제 성능을 고민할 차례입니다.데이터 레이크에서 가장 골치 아픈 작업은 바로 데이터 수정(UPDATE)과 삭제(DELETE)입니다."100GB짜리 파일에서 딱 한 줄만 고치고 싶은데, 파일 전체를 다시 써야 하나요?"이 질문에 대한 Iceberg의 대답은 두 가지입니다. "완벽하게 다시 쓰거나(COW)" 아니면 "변경분만 살짝 메모해 두거나(MOR)".오늘은 Iceberg 성능 튜닝의 핵심이자, 데이터 엔지니어라면 반드시 선택해야 할 기로인 Copy-on-Write (COW)와 Merge-on-Read (MO..

반응형