Fastembed + LanceDB: 368K 대화 로컬 시맨틱 검색 구축

한 개발자가 클라우드 의존성이나 API 키 없이 368K개의 메시지를 처리하는 AI 대화 기록용 로컬 시맨틱 검색 시스템을 구현했습니다. 이 프로젝트는 CPU 기반 임베딩을 위해 BAAI/bge-small-en-v1.5 모델과 fastembed를 사용하며, 서버 프로세스 없이 단일 디렉토리로 운영되는 벡터 저장소로 LanceDB를 활용합니다.

기술 스택

임베딩: BAAI/bge-small-en-v1.5 모델(384차원)과 fastembed
벡터 저장소: LanceDB - 단일 디렉토리, 서버 프로세스 없음, 추가 작업에 용이
수집: JSONL 세션 기록(Claude Code, 모든 채팅 내보내기)에서 가져옴
임베딩 성능: M4 CPU에서 약 500 docs/sec

주요 구현 세부사항

개발자는 4개월 간의 반복 과정에서 몇 가지 실용적인 교훈을 얻었습니다:

선택적 임베딩: 초기 버전은 모든 메시지를 임베딩하여 신호 대 잡음비를 감소시켰습니다. 현재 구현에서는 사용자 메시지와 실질적인 내용이 있는 어시스턴트 메시지만 임베딩하며("물론, 여기 코드입니다"와 같은 응답은 건너뜀), 벡터 수를 60% 줄이면서 검색 품질을 향상시켰습니다.
청킹 전략: 고정 크기 청크에서 대화 턴 기반 청크로 전환함으로써 검색 관련성이 크게 개선되었습니다. 모델 선택(nomic-embed-text, bge-large, all-MiniLM 시도)은 청킹 방식에 비해 미미한 차이만 보였습니다.
LanceDB 장점: 개발자는 LanceDB가 "개인 규모에서는 어리석을 정도로 저평가되었다"고 평가했습니다 - 서버 없음, Docker 없음, 단순히 새 벡터를 즉시 추가할 수 있는 디렉토리만으로 과도하게 설계된 pgvector 설정을 대체했습니다.
재임베딩 워크플로: 384차원의 bge-small-en-v1.5 모델은 cron 작업으로 시간 단위 재임베딩을 수행할 만큼 충분히 빠릅니다. M2 하드웨어에서 117K 벡터의 전체 재인덱싱은 약 4분이 소요됩니다.