RAGチャットボット評価:モデルスイープ+検索修正によりコスト79%削減、品質19%向上

あるRedditユーザーが、ChromaDB上でデフォルトの類似度しきい値0.7(コサイン距離)で動作し、生成にGemini 3.1 Flash Lite Previewを使用しているカスタマーサポートRAGチャットボットを徹底評価しました。最も高価なモデルが最悪のパフォーマンスであり、いくつかの非自明な変更が実際に効果を発揮したことを発見しました。
検索の問題がLLMの問題を装う
ユーザーが「こんにちは、御社は何をしているのですか?」といったカジュアルな質問をすると、ボットは「御社のサービスの具体的な情報にはアクセスできません」と応答していました。直感的にはプロンプトを調整したりモデルを変更したりしたくなりますが、根本原因は検索にありました。ChromaDBの類似度しきい値が0.7(コサイン距離、低いほど類似、つまり厳しい)に設定されていたため、カジュアルな質問はどのチャンクにも十分近い埋め込みを生成せず、結果的にドキュメントが取得されませんでした。教訓:生成を非難する前に、LLMが実際に受け取ったコンテキストをログに記録すること。検索が何も返さなければ、プロンプトエンジニアリングでは修正できません。
ヒューリスティック評価器はないより悪い
キーワードマッチングやソース参照のカウントでは、ユーザー満足度と相関のない数値が得られました。著者はLLMジャッジ(OpenRouter経由のClaude Haiku 4.5)に切り替え、関連性、正確性、有用性、全体的な評価を0〜10でスコアリングしました。コストは完全実行あたり数セントです。
チャンクの重複排除
2つのターンで、コンテキストウィンドウにほぼ同一のFAQチャンクが3つ含まれていました。同じソースファイルから80%以上のトークン重複をチェックする機能を追加することで、コンテキストが整理され、トークンが削減され、あるターンでの製品名の幻覚が止まりました。
より厳格なグラウンディングのトレードオフ
エージェントが取得したドキュメントからの事実のみを述べるルールを追加することで、正確性は向上しましたが、知識ギャップのあるターンでは有用性が低下しました。ボットは推測する代わりに「ドキュメントにこれが指定されていません。サポートにお問い合わせください」と言うようになりました。著者は、これは事実に基づくサポートボットにとって正しい判断だが、意識的に行う必要があると述べています。
モデルスイープ結果
同じ評価ハーネスを5つのモデルで実行したところ、Gemma 4 26Bが7.88のスコアを記録し、元のGemini 3.1 Flash Lite Previewの7.33を上回り、さらにセッションあたりのコストが75%削減されました。Mistral Small 3.2が僅差で2位でした。Nova Microは最も安価でしたが、簡潔すぎる応答が実用的でないと判断されました。全体の品質は6.62から7.88(+19%)に向上し、コストはセッションあたり$0.002420から$0.000509(-79%)に低下しました。
評価全体はNeo AI Engineerを使用して行われ、評価ハーネスの構築、チェックポイント実行、タイムアウトやコンテキスト制限の問題への対応、結果の統合が行われました。著者はすべてを手動でレビューしました。
📖 全文ソース: r/LocalLLaMA
👀 See Also

ガイド:GEEKOM IT15 ミニPCで llama.cpp を使用して OpenClaw をデプロイする
技術的な詳細説明では、OpenClawをOllamaからllama.cppに切り替え、Intel Arc GPUアクセラレーションを利用してローカルでQwen3-8Bモデルを実行する方法を解説しています。設定変更、手動サーバー管理、一般的な問題のトラブルシューティングについてカバーしています。

Claude Codeの27フックライフサイクル ビジュアルガイド
コミュニティによって作成されたリソースは、Claude Codeの全27種類のフックについて、視覚的かつ音声による解説を提供しています。各フックがいつ発火するか、その順序、受け取るデータを示しています。このプロジェクトはClaude Code自体を使用して完全に構築されました。

V100 SXM2 NVLink ホームラボガイド:約11万円で64GBの統合VRAMを構築する方法
約1,100ドルで64GBのNVLink統合VRAMを備えたV100 SXM2ホームラボを構築する方法について、リバースエンジニアリングされた中国製ハードウェアを使用した包括的なガイド。ハードウェアの調達方法、性能見積もり、ソフトウェア互換性について詳述。

Qwen3.5-27Bのローカル環境構築:vLLMとllama.cppの比較
RedditユーザーがQwen3.5-27Bをローカルで実行するための実践的なヒントを共有し、llama.cppとvLLMバックエンドを比較し、具体的な設定推奨事項とベンチマーク結果を示しています。