高価なモデルが優れていると思い込まない:テストによる13倍のコスト削減を示す事例研究

Redditユーザーが、GPT-5.4のような高額モデルをデフォルトで使うと予算を大幅に無駄にする可能性があることを示す事例を共有しました。過去1年間に数千回の評価を実施した結果、古いモデルや安価なモデルが特定のタスクで同等以上のパフォーマンスを発揮し、しかも高速かつ低コストであることが判明しました。
評価の主な結果
ユーザーは、実際の本番データを使った分類パイプラインで、openmark.ai上で21モデルをテストしました。1万回の呼び出しあたりの結果は以下の通りです:
- Gemini 3.1 Flash Lite: 精度85%、コスト$1.55
- GPT-5.4: 精度85%、コスト$20.30
- Llama 4 Maverick: 精度80%、コスト$1.84
- Claude Opus 4.6: 精度80%、コスト$42.80
Flash LiteはGPT-5.4と同等の精度を13分の1のコストで達成し、一方Opusは精度が低く、コストはFlash Liteの27倍以上でした。
定価が誤解を招く理由
発表されている100万トークンあたりの価格は、実際のAPIコストを反映していません。単語1つの応答で十分な場合に、数千のチェーンオブソートトークンを出力するモデルもあり、コストが10倍以上に膨れ上がることがあります。信頼できる唯一の方法は、自社データの実際のトークン数を使ってベンチマークすることです。
自動モデル選択
ユーザーは、ベンチマーク結果を基にタスクごとに最適なモデルを自動選択し、フォールバックを備えたオープンソースのルーターを紹介しています:OpenClaw Router。
結論
新しいモデルや高価なモデルが最適だと決めつけてはいけません。自社データで複数のモデルをテストし、タスクあたりの実際のコストを測定しましょう。今回のケースでは、切り替えによってAI費用を92%削減できました。
📖 原文を読む: r/clawdbot
👀 See Also

AIを使った10万行のRust:契約、仕様駆動開発、パフォーマンス
Cheng HuangはAIエージェントを使用してRust製マルチPaxosエンジンを構築し、30万ops/秒を達成。主要技術:AIが生成したコード契約、軽量な仕様駆動開発、積極的な最適化。

同一リファクタリングにおいて、ルーティングエージェントのサブタスクを安価なモデルに振り分けることでコストが18ドルから4ドルに削減
開発者は、ルーティン的なサブタスク(lint、リネーム、設定編集など)をDeepSeek V4 ProやTencent Hunyuan Hy3といった安価なモデルに振り分け、複雑な推論にはOpus 4.7を予約することで、エージェントの実行コストを18ドルから4ドルに削減しました。

Claude Codeの請求を節約:計画トークンを低価格モデルにルーティング
あるユーザーが、Claude Codeのワークフローを分割することで超過料金約40ドルを節約した方法:計画段階はHaiku 3.5に任せ、実際の編集や意思決定はOpus/Sonnetで行う。30行のラッパーがルーティングを担当し、セットアップには約2時間かかった。

ほとんどのClaudeパイプラインの失敗はモデルではなくプロンプトに原因がある理由とスキルで修正する方法
Redditの投稿によると、Claudeワークフローにおけるパイプライン障害の根本原因は、プロンプトをスキルとして扱っていることにある。解決策は、入力契約、出力スキーマ、学習ファイルを定義し、スキルをv1に昇格させることである。