안녕하세요! 여러분의 AI 기술 가이드, 팬돌프입니다.지난 1편에서는 텍스트를 숫자로 바꾸는 임베딩(Embedding)에 대해 배웠습니다. "의미가 비슷하면 벡터 공간에서 거리가 가깝다"는 것이 핵심이었죠.그런데 여기서 현실적인 문제에 부딪힙니다. 여러분이 만든 서비스가 대박이 나서 데이터가 1억 개가 되었다고 상상해 봅시다. 사용자가 질문을 던질 때마다 1억 개의 데이터와 일일이 거리를 계산해서 가장 가까운 놈을 찾으려면 얼마나 걸릴까요?아마 답변 하나를 듣는 데 10초, 아니 1분이 걸릴지도 모릅니다. 사용자는 다 떠나겠죠.오늘은 정확도를 아주 조금 포기하는 대신, 속도를 수백 배 빠르게 만드는 벡터 데이터베이스의 심장, ANN(근사 최근접 이웃)과 HNSW 알고리즘의 비밀을 파헤쳐 봅니다.1. 완벽..