RAGパイプラインのテストが示すのは、トークンあたりのコストがモデル選択の適切な指標ではないということです。

✍️ OpenClawRadar📅 公開日: March 2, 2026🔗 Source
RAGパイプラインのテストが示すのは、トークンあたりのコストがモデル選択の適切な指標ではないということです。
Ad

開発者が、SOC 2コンプライアンスに関する微妙な顧客クエリに答えるために、同一のRAGパイプラインを使用して3つのAIモデルの本番レベル比較を実施しました。このテストでは、Claude Haiku 4.5、Amazon Nova Pro、Amazon Nova Liteを同じセットアップで使用しました:2つのベクトルストア(製品ドキュメントとマーケティング/競合ドキュメント)、13のアーキテクチャ決定記録を基礎コンテキストとして、クエリごとに約49K入力トークンの取得コンテキスト、同一のシステムプロンプト、モデルIDのみ変更した同じBedrock APIコール構造です。

テスト設定と結果

クエリは次の通りでした:「顧客がSOC 2コンプライアンスについて質問してきました — どう応答すればよいですか?」すべてのモデルは、コピペ可能なメール、反論処理、競合ポジショニング、フレームワーク固有のコンプライアンス回答、言ってはいけないことのガードレールを含む完全なプレイブックを含む同じRAGコンテキストを受け取りました。

結果:

  • Nova Lite: 49,067入力トークン、244出力トークン、5.5秒応答時間、約$0.003コスト
  • Nova Pro: 49,067入力トークン、368出力トークン、13.5秒応答時間、約$0.040コスト
  • Haiku 4.5: 53,674入力トークン、1,534出力トークン、15.6秒応答時間、$0.049コスト
Ad

出力品質比較

同一のコンテキストにもかかわらず、モデルは劇的に異なる応答を生成しました:

  • Nova Lite: 4段落の一般的なメールを生成し、核心的事実(お客様のアカウントにデプロイ、別途SOC 2レポートなし)は正しく伝えましたが、反論処理、競合ポジショニング、コンテキストからのニュアンスは一切含まれていませんでした。ADRへの準拠に関するメタ解説で終了しました。
  • Nova Pro: データ所在地、認証、アクセス制御、監視、パッチ適用、シークレット管理、コンプライアンス範囲などの技術的側面をカバーする7つの番号付き箇条書きを生成しました。技術的には正確ですが、AWSドキュメントを貼り付けたような読み味で、同様のメタ解説を含んでいました。
  • Haiku 4.5: 平易な英語による説明、コピペ可能なメール、Terraformのアナロジーを用いた反論処理、HIPAA、PCI-DSS、SOX、FINRAのフレームワーク固有回答、「言ってはいけないこと」のガードレール、CRM対応のトーキングポイント、他のツールに対する競合ポジショニングを含む完全なプレイブックを提供しました。

主な発見

この差は利用可能な情報に関するものではありませんでした — すべてのモデルは完全なプレイブックを含む同じ約49K入力トークンを持っていました。違いは、各モデルが抽出・統合できる内容にありました。Nova Liteは1つの事実を抽出し、Nova Proは事実をリストに整理しましたが、Haikuはコンテキストを予測されるフォローアップを含む実用的なツールキットに統合しました。

Nova ProとHaikuのコスト差はクエリあたり$0.009(1セント未満)でしたが、出力品質の差は甚大でした。トークンあたり最も安価なモデルは、Haikuの単一パス出力に匹敵するために2〜3回のフォローアップクエリを必要とする応答を生成し、結局はRAGパイプラインの繰り返し使用によりより多くのコストがかかることになります。

📖 完全なソースを読む: r/ClaudeAI

Ad

👀 See Also

OpenClawユーザーは、複雑なエージェント設定から実用的な自動化へ移行し、週に8〜10時間を節約しています。
Use Cases

OpenClawユーザーは、複雑なエージェント設定から実用的な自動化へ移行し、週に8〜10時間を節約しています。

OpenClawを約1ヶ月間運用した開発者は、複雑なマルチエージェントシステムを放棄し、GitHubを通じたウェブサイト管理の自動化に注力しました。このセットアップにより、4週間で30件の投稿を生成し、週8〜10時間の作業が1日約20分のレビューに削減されました。

OpenClawRadar
OpenClaw リファレンスセットアップ:セキュリティアーキテクチャを備えた6週間のプロダクション使用事例
Use Cases

OpenClaw リファレンスセットアップ:セキュリティアーキテクチャを備えた6週間のプロダクション使用事例

ある産業エンジニアが、朝のブリーフィング、請求書スキャン、音声文字起こし、カスタムセキュリティシステムによるファイル同期を処理する個人用AIエージェントをMac Mini M4上に構築しました。このセットアップにはClaude Sonnet、MiniMax、Qwenローカルモデルが含まれ、1日12回のcronジョブを実行し、月額30〜50ドルのコストで運用されています。

OpenClawRadar
開発者のOpenClawにおける2,500ドルのOpusトークンバーン:現実のワークフロー対ツール
Use Cases

開発者のOpenClawにおける2,500ドルのOpusトークンバーン:現実のワークフロー対ツール

ソフトウェアショップのオーナーが、OpenClawを通じてOpusトークンに2,500ドルを費やし、バグ修正、ビジュアル自動化、サーバー管理などに使用した経験を語る。しかし、「ワークフロー」の意味について疑問を投げかけている。

OpenClawRadar
OpenClawユーザーがエージェント的コーディング手法でキャラクターチャットアプリを構築
Use Cases

OpenClawユーザーがエージェント的コーディング手法でキャラクターチャットアプリを構築

非技術系と自称するOpenClawユーザーが、エージェント型コーディングを活用して7日間で動作するキャラクターチャットアプリケーションを開発し、自身の役割が従来のプログラミングからAI生成作業のレビューへと変化したと述べています。

OpenClawRadar