반응형

eTL 11

[AI 엔지니어링] 4. [구축] 데이터 파이프라인: 문서를 쪼개고(Chunking) 벡터로 변환하기

안녕하세요! 여러분의 데이터 요리사, 팬돌프입니다.지난 시간, 우리는 데이터를 담을 그릇인 Vector DB를 선택했습니다. (Pinecone, Milvus, pgvector 중 하나를 고르셨겠죠?)이제 그릇에 담을 재료(데이터)를 손질할 시간입니다. 많은 분이 "그냥 PDF 파일을 통째로 AI한테 주면 되는 거 아니에요?"라고 묻습니다. 안타깝게도 LLM은 한 번에 읽을 수 있는 글자 수(Context Window)에 제한이 있습니다. 마치 코끼리를 냉장고에 넣으려면 토막을 내야 하는 것과 같죠.하지만 막 썰면 안 됩니다. 문맥이 끊기지 않게 예쁘게 썰어야 AI가 똑똑해집니다. 오늘은 RAG 성능의 50%를 결정짓는 핵심 기술, 청킹(Chunking) 전략과 데이터 파이프라인(ETL) 구축 실습을 진행..

AI Engineering 2026.02.16

[Apache Iceberg] 8. [실전] Spark & Trino와 연동하여 레이크하우스 구축하기

안녕하세요! 여러분의 데이터 아키텍처 길잡이, 팬돌프입니다.드디어 Apache Iceberg 완전 정복 시리즈의 마지막 편에 도착했습니다. 지난 7편 동안 우리는 Iceberg의 철학부터 구조, 트랜잭션, 그리고 타임 트래블 같은 고급 기능까지 깊이 있게 파헤쳤습니다. 이론적인 무장은 이제 완벽합니다.하지만 구슬이 서 말이라도 꿰어야 보배겠죠? 오늘은 이 강력한 기술을 여러분의 현업 시스템에 실제로 적용하는 방법을 다룹니다.데이터 가공(ETL)의 제왕 Apache Spark, 그리고 초고속 대화형 쿼리의 강자 Trino(구 PrestoSQL). 이 두 엔진을 Iceberg와 연결하여 진정한 데이터 레이크하우스를 구축하는 설정법과, 운영자가 반드시 챙겨야 할 유지보수 루틴까지 꽉 채워 담았습니다.대장정의 ..

[Apache Spark] 5. [심화] Spark SQL과 집계 연산: 데이터 분석의 날개를 달다

안녕하세요! 여러분의 데이터 셰프, 팬돌프입니다.지난 4편에서는 지저분한 데이터를 깨끗하게 다듬는 '데이터 랭글링' 기술을 익혔습니다. 재료 손질이 끝났다면 이제 본격적으로 불을 지피고 맛있는 요리를 만들어낼 차례입니다.데이터 엔지니어링의 꽃은 결국 데이터 속에 숨겨진 통찰(Insight)을 찾아내는 것입니다. "어떤 상품이 가장 많이 팔렸지?", "부서별 평균 연봉은 얼마지?" 같은 질문에 답하는 과정이죠.오늘 소개할 Spark SQL과 집계 함수는 여러분에게 엑셀의 피벗 테이블, 혹은 그 이상의 강력한 분석 능력을 선사할 것입니다. 자, 시작해 볼까요?1. "나는 SQL이 더 편한데..." : Spark SQL의 마법많은 개발자와 데이터 분석가들에게 SQL은 모국어와 같습니다. PySpark의 함수(..

[Apache Spark] 4. [가공] 데이터 랭글링(Wrangling)의 기술: Transformation과 Action

안녕하세요! 여러분의 데이터 요리사, 팬돌프입니다.지난 3편에서는 외부의 데이터를 가져와 DataFrame이라는 그릇에 예쁘게 담는 법을 배웠습니다. 하지만 현실의 데이터는 절대 깨끗하지 않죠. 필요 없는 컬럼이 잔뜩 있거나, 이상한 값이 섞여 있거나, 구멍(Null)이 숭숭 뚫려 있기 마련입니다.오늘은 이 원석 같은 데이터를 우리가 원하는 보석으로 다듬는 과정, 즉 데이터 랭글링(Data Wrangling)의 핵심 기술을 전수해 드립니다. 스파크 프로그래밍의 90%는 오늘 배우는 함수들로 이루어진다고 해도 과언이 아닙니다.준비되셨나요? 칼질을 시작해 봅시다!1. 스파크의 두 가지 움직임: 변환(Transformation)과 행동(Action)본격적인 코딩에 앞서, 스파크의 독특한 동작 방식을 다시 한번..

[Apache Spark] 1. 왜 하필 Spark인가? 하둡(Hadoop)을 넘어선 메모리 혁명

안녕하세요! 여러분의 데이터 엔지니어링 여정을 함께하는 든든한 파트너, 팬돌프입니다.지난 시간까지 카프카(Kafka)를 통해 데이터를 실시간으로 수집하고 이동시키는 '데이터의 고속도로'를 건설했습니다. 데이터가 잘 흐르고 있다면, 이제 그 방대한 데이터를 씹고, 뜯고, 맛보고, 즐길 차례입니다.오늘부터 시작되는 [Apache Spark 완전 정복] 시리즈를 통해, 여러분은 현존하는 가장 강력한 분산 처리 엔진을 여러분의 무기로 만들게 될 것입니다. 그 첫 번째 시간, 스파크가 도대체 무엇이며 왜 전 세계 엔지니어들이 열광하는지 그 탄생 배경과 핵심 철학부터 차근차근 알아보겠습니다.1. 하둡(Hadoop)의 시대와 디스크 I/O의 병목빅데이터라는 단어가 세상에 처음 등장했을 때, 그 중심에는 하둡(Hado..

[빅데이터의 심장] Apache Spark(PySpark) 완전 정복: 입문부터 성능 튜닝, 스트리밍까지 로드맵

안녕하세요! 데이터 엔지니어링의 정점을 향해 달리는 여러분의 러닝 메이트, 팬돌프입니다.카프카(Kafka)를 정복하신 당신이 선택한 Apache Spark (PySpark)는 정말 탁월한 선택입니다. 카프카가 데이터를 빠르게 실어 나르는 고속도로라면, 스파크는 그 데이터를 받아 거대한 공장처럼 가공하고 분석하는 초고속 엔진이기 때문이죠.단순한 API 사용법을 넘어, 메모리 관리와 성능 튜닝까지 아우르는 전문적인 데이터 엔지니어링 시리즈가 될 수 있도록, 총 8편으로 구성된 상세 리포트를 준비했습니다.📋 Apache Spark (PySpark) 연재 시리즈 리포트제1편. [입문] 왜 하필 Spark인가? 하둡(Hadoop)을 넘어선 메모리 혁명빅데이터 처리의 역사: 하둡 맵리듀스(MapReduce)의 디..

[Looker] 4. 중급 테크닉: 파생 테이블(Derived Tables)의 마법

안녕하세요, IT 전문 블로거 팬돌프입니다.실무에서 데이터 분석을 하다 보면, 데이터베이스에 있는 원본 테이블(Raw Data)만으로는 해결되지 않는 복잡한 요구사항을 마주하게 됩니다."개발자님, 각 고객별로 '첫 구매일'과 '생애 총 구매액'을 구해서, 주문 테이블 옆에 붙여서 분석하고 싶어요."SQL이라면 GROUP BY를 사용해 서브 쿼리(Sub-query)나 CTE(Common Table Expression, WITH 절)를 만들어서 메인 쿼리와 조인하겠죠?루커에서는 이 역할을 파생 테이블(Derived Table)이 담당합니다. 이 기능을 잘 쓰면 복잡한 SQL 로직을 깔끔하게 정리할 수 있고, 무엇보다 대시보드 속도를 비약적으로 향상시킬 수 있습니다.1. 파생 테이블(Derived Table)..

[Kafka] 11. 데이터 거버넌스의 핵심 - 스키마 레지스트리 (Schema Registry)

안녕하세요! 여러분의 IT 지식 파트너, 팬돌프입니다.지난 [10편]에서는 '정확히 한 번(Exactly-Once)' 전송을 통해 데이터의 유실과 중복을 막는 법을 배웠습니다. 이제 데이터가 안전하게 전달되는 것은 보장되었죠.하지만 데이터 파이프라인에는 또 다른 무시무시한 적이 숨어 있습니다. 바로 '데이터 구조의 변경'입니다.어제까지 숫자(int)로 들어오던 고객 ID가 오늘 갑자기 문자열(String)로 들어온다면? 혹은 필수값이었던 '가격' 필드가 갑자기 사라진다면? 아마 여러분의 컨슈머 애플리케이션은 에러를 뱉으며 줄줄이 멈춰 설 것입니다.오늘 [11편]에서는 이러한 '데이터 재앙'을 막고, 프로듀서와 컨슈머 사이의 평화를 지키는 스키마 레지스트리(Schema Registry)에 대해 깊이 있게 ..

[Airflow] 3. Operator 완전 정복 - 다양한 작업 유형별 활용법

안녕하세요, 데이터 탐험가 여러분! 팬돌프입니다. 🐧지난 2편에서는 우리 손으로 직접 Airflow를 설치하고 첫 번째 DAG를 만들어보는 뿌듯한 경험을 했습니다. 이제 Airflow가 어떻게 돌아가는지 감을 잡으셨을 텐데요. 오늘은 데이터 파이프라인에 실질적인 생명을 불어넣는 아주 중요한 요소, 바로 오퍼레이터(Operator)에 대해 깊이 있게 파헤쳐 보겠습니다!Airflow가 강력한 이유는 바로 이 오퍼레이터 덕분입니다. 세상에 존재하는 거의 모든 종류의 작업을 수행할 수 있도록 미리 만들어진 '작업 블록'이라고 생각하시면 됩니다. 자, 그럼 어떤 마법 같은 블록들이 있는지 함께 탐험해 볼까요?3편: Operator 완전 정복 - 다양한 작업 유형별 활용법오퍼레이터는 Airflow의 핵심 빌딩 블..

[Airflow] 1. Apache Airflow 완전 정복 - 데이터 파이프라인의 새로운 패러다임

안녕하세요! IT 전문 블로거를 꿈꾸는 개발자, 팬돌프입니다. 🐧 앞으로 데이터 엔지니어링과 인공지능의 세계를 여러분과 함께 탐험하며 유익하고 재미있는 정보들을 공유하고자 합니다. 잘 부탁드립니다!오늘은 그 첫 번째 여정으로, 현대 데이터 파이프라인의 필수 도구로 자리 잡은 Apache Airflow(아파치 에어플로우)에 대해 깊이 있게 알아보는 시간을 갖겠습니다. 데이터 엔지니어링에 관심이 있으시거나, 복잡한 데이터 작업을 자동화하고 관리하는 데 어려움을 겪고 계신 분들이라면 오늘 포스팅이 큰 도움이 될 것이라 확신합니다.1편: Apache Airflow 완전 정복 - 데이터 파이프라인의 새로운 패러다임Airflow란 무엇인가? 🤔여러분, 혹시 매일 아침 9시에 데이터를 수집하고, 10시에 가공한 ..

[Airflow] Airflow(에어플로우) 파헤치기

안녕하세요! IT 전문 블로거를 꿈꾸는 개발자, 팬돌프입니다.Apache Superset 이후 제가 실무에서 가장 많이 사용하던 도구 중 데이터 파이프라인의 필수 도구로 자리 잡은 Apache Airflow(아파치 에어플로우)에 대해 깊이 있게 알아보는 시간을 갖겠습니다. 데이터 엔지니어링에 관심이 있으시거나, 복잡한 데이터 작업을 자동화하고 관리하는 데 어려움을 겪고 계신 분들이라면 앞으로 연재될 Airflow의 내용이 도움이 되실꺼라 생각됩니다.📋 연재 개요목표: Apache Airflow를 활용한 데이터 파이프라인 구축의 모든 것을 체계적으로 다루는 기술 블로그 연재대상 독자: 데이터 엔지니어, 백엔드 개발자, DevOps 엔지니어, 데이터 분석가1편: Apache Airflow 완전 정복 - 데..

반응형