반응형

DataPipeline 4

[AI 엔지니어링] 4. [구축] 데이터 파이프라인: 문서를 쪼개고(Chunking) 벡터로 변환하기

안녕하세요! 여러분의 데이터 요리사, 팬돌프입니다.지난 시간, 우리는 데이터를 담을 그릇인 Vector DB를 선택했습니다. (Pinecone, Milvus, pgvector 중 하나를 고르셨겠죠?)이제 그릇에 담을 재료(데이터)를 손질할 시간입니다. 많은 분이 "그냥 PDF 파일을 통째로 AI한테 주면 되는 거 아니에요?"라고 묻습니다. 안타깝게도 LLM은 한 번에 읽을 수 있는 글자 수(Context Window)에 제한이 있습니다. 마치 코끼리를 냉장고에 넣으려면 토막을 내야 하는 것과 같죠.하지만 막 썰면 안 됩니다. 문맥이 끊기지 않게 예쁘게 썰어야 AI가 똑똑해집니다. 오늘은 RAG 성능의 50%를 결정짓는 핵심 기술, 청킹(Chunking) 전략과 데이터 파이프라인(ETL) 구축 실습을 진행..

AI Engineering 2026.02.16

[Apache Spark] 8. [확장] Kafka와 만난 Spark: Structured Streaming으로 구축하는 실시간 데이터 파이프라인

안녕하세요! 여러분의 영원한 데이터 엔지니어링 파트너, 팬돌프입니다.드디어 대장정의 마지막 순간이 왔습니다. 지난 1편부터 7편까지 우리는 스파크의 기본 개념부터 DataFrame, SQL 분석, 그리고 심화 튜닝 기술까지 숨 가쁘게 달려왔습니다. 이제 여러분은 이미 대용량 배치(Batch) 데이터를 처리하는 데 있어서는 준전문가 수준에 도달하셨습니다.하지만 현대의 데이터 환경은 멈춰 있지 않습니다. 데이터는 24시간 쉴 새 없이 흐릅니다. "어제 데이터 말고, 지금 당장 들어오는 매출 데이터를 보고 싶어!" 이런 요구사항에 대응하기 위해, 마지막 퍼즐 조각인 실시간 스트리밍(Streaming)을 맞춰보겠습니다.우리가 초반에 다뤘던 '카프카(Kafka)'와 오늘 배울 '스파크(Spark)'가 만나면 어떤..

[빅데이터의 심장] Apache Spark(PySpark) 완전 정복: 입문부터 성능 튜닝, 스트리밍까지 로드맵

안녕하세요! 데이터 엔지니어링의 정점을 향해 달리는 여러분의 러닝 메이트, 팬돌프입니다.카프카(Kafka)를 정복하신 당신이 선택한 Apache Spark (PySpark)는 정말 탁월한 선택입니다. 카프카가 데이터를 빠르게 실어 나르는 고속도로라면, 스파크는 그 데이터를 받아 거대한 공장처럼 가공하고 분석하는 초고속 엔진이기 때문이죠.단순한 API 사용법을 넘어, 메모리 관리와 성능 튜닝까지 아우르는 전문적인 데이터 엔지니어링 시리즈가 될 수 있도록, 총 8편으로 구성된 상세 리포트를 준비했습니다.📋 Apache Spark (PySpark) 연재 시리즈 리포트제1편. [입문] 왜 하필 Spark인가? 하둡(Hadoop)을 넘어선 메모리 혁명빅데이터 처리의 역사: 하둡 맵리듀스(MapReduce)의 디..

[OpenTelemetry & Jaeger] 5. OpenTelemetry Collector: 데이터 파이프라인 최적화의 핵심

1. 왜 Collector를 중간에 둬야 하나요?애플리케이션(Agent)에서 Jaeger 백엔드로 데이터를 직접 쏘는 구조는 소규모일 땐 괜찮지만, 대규모 환경에서는 다음과 같은 문제에 봉착합니다.앱 성능 저하: 데이터 압축, 암호화, 재시도 로직 등을 애플리케이션 리소스를 써서 처리해야 합니다.유연성 부족: "Jaeger 말고 Datadog으로도 데이터를 보내줘"라는 요청이 오면 모든 앱 설정을 바꿔야 합니다.데이터 홍수: 의미 없는 정상 응답 데이터(OK 200)까지 모두 저장하느라 스토리지 비용이 낭비됩니다.OpenTelemetry Collector는 애플리케이션과 백엔드 사이에 위치하여 데이터 수신, 가공, 전송을 전담하는 벤더 중립적인 프록시(Proxy)입니다.2. Collector 설정의 4대..

반응형