RAG 챗봇 평가: 모델 스윕으로 비용 79% 절감 및 품질 19% 향상

한 Reddit 사용자가 ChromaDB에서 기본 유사도 임계값 0.7(코사인 거리)로 실행되고 Gemini 3.1 Flash Lite Preview를 사용하여 생성을 수행하는 고객 지원 RAG 챗봇에 대한 전체 평가를 진행했습니다. 그들은 가장 비싼 모델이 성능이 가장 낮았으며, 몇 가지 명확하지 않은 변경이 실제로 효과를 보였다는 사실을 발견했습니다.

검색 문제가 LLM 문제로 위장됨

사용자가 "안녕, 뭐 하는 곳이야?" 같은 캐주얼한 시작 질문을 할 때 봇이 "회사 서비스에 대한 구체적인 정보에 접근할 수 없습니다"라고 응답했습니다. 직감적으로 프롬프트를 수정하거나 모델을 바꾸고 싶었지만, 근본 원인은 검색에 있었습니다. ChromaDB의 유사도 임계값이 0.7(코사인 거리, 낮을수록 더 유사하므로 실제로는 엄격함)로 설정되어 있었습니다. 캐주얼한 시작 질문은 어떤 청크에도 충분히 가까운 임베딩을 생성하지 못했고, 따라서 검색된 문서가 없었습니다. 교훈: 생성을 비난하기 전에 LLM이 실제로 받은 컨텍스트를 로그로 기록하십시오. 검색이 아무것도 반환하지 않으면 아무리 프롬프트 엔지니어링을 해도 해결되지 않습니다.

휴리스틱 평가자는 없는 것보다 나쁨

키워드 매칭과 소스 참조 카운팅은 사용자 만족도와 상관관계가 없는 숫자를 제공했습니다. 저자는 LLM 평가자(OpenRouter를 통한 Claude Haiku 4.5)로 전환하여 관련성, 정확성, 유용성, 전반적인 점수를 0-10으로 평가했습니다. 비용: 전체 실행에 몇 센트.

청크 중복 제거

두 턴에서 컨텍스트 창에 거의 동일한 FAQ 청크 세 개가 있었습니다. 동일한 소스 파일에서 80% 이상의 토큰 중복을 확인하는 기능을 추가하여 컨텍스트를 정리하고 토큰을 줄였으며, 한 턴에서 제품 이름에 대한 환각을 중단시켰습니다.

더 엄격한 근거 기반 트레이드오프

에이전트가 검색된 문서에서만 사실을 말하도록 규칙을 추가하면 정확성은 향상되었지만 지식 격차가 있는 턴에서 유용성이 감소했습니다: 봇이 추측하는 대신 "문서에 명시되지 않았으니 지원팀에 문의하세요"라고 말하기 시작했습니다. 저자는 사실 기반 지원 봇의 경우 이것이 올바른 결정이지만 의식적으로 이루어져야 한다고 지적합니다.

모델 스윕 결과

동일한 평가 프레임워크를 5개 모델에 실행한 결과, Gemma 4 26B가 7.88점으로 원래 Gemini 3.1 Flash Lite Preview의 7.33점을 능가했으며 세션당 비용이 75% 저렴했습니다. Mistral Small 3.2가 근소한 차이로 2위였습니다. Nova Micro는 가장 저렴했지만 간결한 응답이 실행 가능하지 않다는 이유로 불이익을 받았습니다. 전반적인 품질은 6.62에서 7.88로 향상되었고(+19%), 비용은 세션당 $0.002420에서 $0.000509로 감소했습니다(−79%).

전체 평가는 Neo AI Engineer를 사용하여 수행되었으며, 이 도구가 평가 프레임워크를 구축하고, 체크포인트 실행을 처리하고, 시간 초과 및 컨텍스트 제한 문제를 다루고, 결과를 통합했습니다. 저자는 모든 것을 수동으로 검토했습니다.

📖 전체 소스 읽기: r/LocalLLaMA