반응형

TableFormat 2

[Apache Iceberg] 3. [기능] 스키마 진화(Schema Evolution): 데이터 재작성 없는 컬럼 변경

안녕하세요! 여러분의 데이터 아키텍처 길잡이, 팬돌프입니다.지난 2편에서는 Iceberg가 데이터를 파일 단위가 아닌 계층형 메타데이터로 관리한다는 사실을 배웠습니다. 이 구조가 주는 장점은 단순히 '검색 속도'만이 아닙니다.데이터 엔지니어들이라면 한 번쯤 겪어봤을 악몽이 있죠. "기획팀 요청으로 컬럼 이름을 바꿔야 하는데, 데이터가 100TB네요... 이걸 언제 다 다시 쓰지?"기존 Hive 환경에서는 단순한 컬럼명 변경조차 엄청난 비용이 드는 대공사였습니다. 하지만 Apache Iceberg 환경에서는 이 작업이 단 1초 만에 끝납니다. 데이터 파일을 단 1바이트도 건드리지 않고 말이죠.오늘은 Iceberg가 자랑하는 가장 강력한 기능 중 하나인 스키마 진화(Schema Evolution)와 파티션 ..

[차세대 데이터 아키텍처] S3를 DB처럼 쓴다? Apache Iceberg 완벽 가이드: Hive를 넘어 레이크하우스로

안녕하세요! 여러분의 데이터 아키텍처 가이드, 팬돌프입니다.카프카로 데이터를 나르고, 스파크로 데이터를 가공했다면, 이제 그 데이터를 '어디에, 어떻게 저장할 것인가'가 남았습니다.기존의 하둡(Hive) 방식은 수정(Update)과 삭제(Delete)가 너무 어렵고, 스키마를 바꾸려면 테이블을 엎어야 하는 고통이 있었죠. 이 모든 문제를 해결하고 "S3 같은 객체 스토리지 위에서도 마치 RDB처럼 트랜잭션(ACID)을 보장하는" 혁명적인 기술, Apache Iceberg 시리즈를 준비했습니다.단순한 소개를 넘어 내부 메타데이터 구조까지 깊게 파고드는 전문가용 커리큘럼입니다.📋 Apache Iceberg 연재 시리즈 리포트제1편. [서론] 왜 Iceberg인가? Hive 테이블 포맷의 한계와 레이크하우스..

반응형