RAGテスト：トークン単価はモデル選択の指標にならない

開発者が、SOC 2コンプライアンスに関する微妙な顧客クエリに答えるために、同一のRAGパイプラインを使用して3つのAIモデルの本番レベル比較を実施しました。このテストでは、Claude Haiku 4.5、Amazon Nova Pro、Amazon Nova Liteを同じセットアップで使用しました：2つのベクトルストア（製品ドキュメントとマーケティング/競合ドキュメント）、13のアーキテクチャ決定記録を基礎コンテキストとして、クエリごとに約49K入力トークンの取得コンテキスト、同一のシステムプロンプト、モデルIDのみ変更した同じBedrock APIコール構造です。

テスト設定と結果

クエリは次の通りでした：「顧客がSOC 2コンプライアンスについて質問してきました — どう応答すればよいですか？」すべてのモデルは、コピペ可能なメール、反論処理、競合ポジショニング、フレームワーク固有のコンプライアンス回答、言ってはいけないことのガードレールを含む完全なプレイブックを含む同じRAGコンテキストを受け取りました。

結果：

Nova Lite： 49,067入力トークン、244出力トークン、5.5秒応答時間、約$0.003コスト
Nova Pro： 49,067入力トークン、368出力トークン、13.5秒応答時間、約$0.040コスト
Haiku 4.5： 53,674入力トークン、1,534出力トークン、15.6秒応答時間、$0.049コスト

出力品質比較

同一のコンテキストにもかかわらず、モデルは劇的に異なる応答を生成しました：

Nova Lite： 4段落の一般的なメールを生成し、核心的事実（お客様のアカウントにデプロイ、別途SOC 2レポートなし）は正しく伝えましたが、反論処理、競合ポジショニング、コンテキストからのニュアンスは一切含まれていませんでした。ADRへの準拠に関するメタ解説で終了しました。
Nova Pro： データ所在地、認証、アクセス制御、監視、パッチ適用、シークレット管理、コンプライアンス範囲などの技術的側面をカバーする7つの番号付き箇条書きを生成しました。技術的には正確ですが、AWSドキュメントを貼り付けたような読み味で、同様のメタ解説を含んでいました。
Haiku 4.5： 平易な英語による説明、コピペ可能なメール、Terraformのアナロジーを用いた反論処理、HIPAA、PCI-DSS、SOX、FINRAのフレームワーク固有回答、「言ってはいけないこと」のガードレール、CRM対応のトーキングポイント、他のツールに対する競合ポジショニングを含む完全なプレイブックを提供しました。

主な発見

この差は利用可能な情報に関するものではありませんでした — すべてのモデルは完全なプレイブックを含む同じ約49K入力トークンを持っていました。違いは、各モデルが抽出・統合できる内容にありました。Nova Liteは1つの事実を抽出し、Nova Proは事実をリストに整理しましたが、Haikuはコンテキストを予測されるフォローアップを含む実用的なツールキットに統合しました。

Nova ProとHaikuのコスト差はクエリあたり$0.009（1セント未満）でしたが、出力品質の差は甚大でした。トークンあたり最も安価なモデルは、Haikuの単一パス出力に匹敵するために2〜3回のフォローアップクエリを必要とする応答を生成し、結局はRAGパイプラインの繰り返し使用によりより多くのコストがかかることになります。

📖 完全なソースを読む： r/ClaudeAI

RAGパイプラインのテストが示すのは、トークンあたりのコストがモデル選択の適切な指標ではないということです。

テスト設定と結果

出力品質比較

主な発見

👀 See Also

OpenClawユーザーは、複雑なエージェント設定から実用的な自動化へ移行し、週に8〜10時間を節約しています。

OpenClaw リファレンスセットアップ：セキュリティアーキテクチャを備えた6週間のプロダクション使用事例

開発者のOpenClawにおける2,500ドルのOpusトークンバーン：現実のワークフロー対ツール

OpenClawユーザーがエージェント的コーディング手法でキャラクターチャットアプリを構築