안녕하세요! 여러분의 데이터 아키텍처 가이드, 팬돌프입니다.지난 시간까지 우리는 Kafka로 데이터를 실시간으로 나르고, Spark로 대용량 데이터를 가공하는 법을 마스터했습니다. 이제 엔지니어링 파이프라인의 마지막 종착지, 바로 '저장(Storage)'에 대해 이야기할 차례입니다."그냥 S3에 Parquet 파일로 쌓아두면 되는 거 아니에요?"라고 물으실 수 있습니다. 하지만 데이터가 페타바이트급으로 커지고, 여러 부서에서 동시에 이 데이터를 읽고 쓰기 시작하면 심각한 문제들이 터지기 시작합니다.오늘은 왜 우리가 기존의 방식(Hive)을 버리고 'Apache Iceberg'라는 새로운 기술을 도입해야 하는지, 그리고 이것이 어떻게 데이터 레이크하우스(Data Lakehouse) 시대를 열었는지 아주 상..