RAG評価：モデル変更＋検索修正でコスト79%削減、品質19%向上

あるRedditユーザーが、ChromaDB上でデフォルトの類似度しきい値0.7（コサイン距離）で動作し、生成にGemini 3.1 Flash Lite Previewを使用しているカスタマーサポートRAGチャットボットを徹底評価しました。最も高価なモデルが最悪のパフォーマンスであり、いくつかの非自明な変更が実際に効果を発揮したことを発見しました。

検索の問題がLLMの問題を装う

ユーザーが「こんにちは、御社は何をしているのですか？」といったカジュアルな質問をすると、ボットは「御社のサービスの具体的な情報にはアクセスできません」と応答していました。直感的にはプロンプトを調整したりモデルを変更したりしたくなりますが、根本原因は検索にありました。ChromaDBの類似度しきい値が0.7（コサイン距離、低いほど類似、つまり厳しい）に設定されていたため、カジュアルな質問はどのチャンクにも十分近い埋め込みを生成せず、結果的にドキュメントが取得されませんでした。教訓：生成を非難する前に、LLMが実際に受け取ったコンテキストをログに記録すること。検索が何も返さなければ、プロンプトエンジニアリングでは修正できません。

ヒューリスティック評価器はないより悪い

キーワードマッチングやソース参照のカウントでは、ユーザー満足度と相関のない数値が得られました。著者はLLMジャッジ（OpenRouter経由のClaude Haiku 4.5）に切り替え、関連性、正確性、有用性、全体的な評価を0〜10でスコアリングしました。コストは完全実行あたり数セントです。

チャンクの重複排除

2つのターンで、コンテキストウィンドウにほぼ同一のFAQチャンクが3つ含まれていました。同じソースファイルから80%以上のトークン重複をチェックする機能を追加することで、コンテキストが整理され、トークンが削減され、あるターンでの製品名の幻覚が止まりました。

より厳格なグラウンディングのトレードオフ

エージェントが取得したドキュメントからの事実のみを述べるルールを追加することで、正確性は向上しましたが、知識ギャップのあるターンでは有用性が低下しました。ボットは推測する代わりに「ドキュメントにこれが指定されていません。サポートにお問い合わせください」と言うようになりました。著者は、これは事実に基づくサポートボットにとって正しい判断だが、意識的に行う必要があると述べています。

モデルスイープ結果

同じ評価ハーネスを5つのモデルで実行したところ、Gemma 4 26Bが7.88のスコアを記録し、元のGemini 3.1 Flash Lite Previewの7.33を上回り、さらにセッションあたりのコストが75%削減されました。Mistral Small 3.2が僅差で2位でした。Nova Microは最も安価でしたが、簡潔すぎる応答が実用的でないと判断されました。全体の品質は6.62から7.88（+19%）に向上し、コストはセッションあたり$0.002420から$0.000509（-79%）に低下しました。

評価全体はNeo AI Engineerを使用して行われ、評価ハーネスの構築、チェックポイント実行、タイムアウトやコンテキスト制限の問題への対応、結果の統合が行われました。著者はすべてを手動でレビューしました。

📖 全文ソース: r/LocalLLaMA