안녕하세요! 여러분의 데이터 요리사, 팬돌프입니다.지난 시간, 우리는 데이터를 담을 그릇인 Vector DB를 선택했습니다. (Pinecone, Milvus, pgvector 중 하나를 고르셨겠죠?)이제 그릇에 담을 재료(데이터)를 손질할 시간입니다. 많은 분이 "그냥 PDF 파일을 통째로 AI한테 주면 되는 거 아니에요?"라고 묻습니다. 안타깝게도 LLM은 한 번에 읽을 수 있는 글자 수(Context Window)에 제한이 있습니다. 마치 코끼리를 냉장고에 넣으려면 토막을 내야 하는 것과 같죠.하지만 막 썰면 안 됩니다. 문맥이 끊기지 않게 예쁘게 썰어야 AI가 똑똑해집니다. 오늘은 RAG 성능의 50%를 결정짓는 핵심 기술, 청킹(Chunking) 전략과 데이터 파이프라인(ETL) 구축 실습을 진행..