同一リファクタリングにおいて、ルーティングエージェントのサブタスクを安価なモデルに振り分けることでコストが18ドルから4ドルに削減

ある開発者がr/ClaudeAIで、エージェントループの実用的なコスト最適化戦略について説明しています。ルーティン的なサブタスクは安価なモデルに振り分け、複雑な推論にのみ高価なモデル(Opus 4.7)を予約するというものです。CSS変数のリネーム、YAML設定の更新、MCPを介したlinter実行などを処理するリファクタリングエージェントは、当初すべてのステップをOpus 4.7に送信し、合計約18ドルかかっていました。ルーティングロジックを実装した結果、212ステップのうち178ステップが安価なモデルに振り向けられ、コストは約4ドルに削減され、ルーティン的な変更では品質に目立った差は見られませんでした。
ルーティングロジック
- 難しいサブタスク → Opus 4.7: コンポーネントアーキテクチャ、深夜のコードのデバッグ、長い会話にわたって持続的な推論が必要なもの。著者は、Opusがその種の作業で真に比類のない存在であると述べています。以前、認証ミドルウェアのバグを安価なモデルにルーティングしようとしたところ、セッション処理が静かに壊れ、トレースに1時間かかりました。
- ルーティン的なサブタスク → 安価なモデル: Lint、リネーム、設定編集、ツールオーケストレーション。著者は、一般的なコーディング作業にはDeepSeek V4 Pro、大量のツール呼び出しにはTencent Hunyuan Hy3プレビューを採用しました。4月下旬時点で、Hunyuan Hy3はOpenRouterでツール呼び出し量で第1位にランクされ、スキーマが整っている場合、関数呼び出しをほぼミスしません。
コスト比較
- Opus 4.7: 入力トークン100万あたり約0.18ドル(約28倍安い代替手段との比較から推定)。
- Tencent Hunyuan Hy3: 入力トークン100万あたり0.18ドル、出力100万あたり0.59ドル — 入力ではOpus 4.7より約28倍安い。
- 同じ212ステップのリファクタリング: 178ステップが安価な階層、34ステップがOpusに。コストは18ドルから約4ドルに低下。
障害モード
- ツール呼び出しモデルは、スキーマがずさんな場合にパラメータを幻覚することがあります(著者はスキーマが悪かったと認めています)。
- DeepSeek V4 Proは、時折、依頼の逆を行い、構文的に完全なコードを生成し、軽いスキャンでは見逃されます。
- 安価なモデルは、深い問題(例:認証フローが静かにクッキーを無視する)のデバッグにおいてOpusに及びません。
判断のヒューリスティック
著者のルーティングの経験則: 「間違った答えを捕まえるのにどれだけコストがかかるか?」 悪いlint修正は2秒のgit revertで済みますが、悪いアーキテクチャ判断は午後全体を無駄にします。
この削減により、以前はスキップされていたタスク(CSS変更ごとのテストの記述と実行、すべてのOpen Graph画像の再生成など)が可能になりました。ツール呼び出し1回あたり数分の1セントであれば、やらない理由がないからです。
📖 全文を読む: r/ClaudeAI
👀 See Also

2x3090でCPUオフロードを使用したMiniMax M2.7 Q8_0 128Kの実行 – 実世界のベンチマークと設定
あるユーザーがMiniMax M2.7(Q8_0量子化)を128Kコンテキストで2枚のRTX 3090とDDR4 RAM上で正常に実行し、プロンプト処理で約50 tps、トークン生成で約10 tpsを達成し、llama-serverのフラグを共有しています。

Claude Code Visual: フック、サブエージェント、MCP、CLAUDE.mdに関する実践的ノート
開発者がClaude Code Visualの実践的な使用経験を共有し、MCPフック構文、プロジェクトコンテキストのためのCLAUDE.md、サブエージェント委任パターン、定期的なタスクのための/loopコマンドについてカバーしています。

AIエージェントの愚かさを修正:リポジトリごとの共有コンテキストツリー
AI従業員がダメに感じる理由は、モデルではなく、共有コンテキストの欠如です。ある開発者の解決策:階層的なマークダウンノードを持つコンテキストツリーリポジトリをエージェントが自動的に維持します。

1ヶ月でOpenClawに850ドル使った?モデルではなく、アーキテクチャを修正せよ
とある開発者がOpenClawのマルチエージェント環境構築で1ヶ月に850ドルを費やし、そのうち1日で350ドルを使い果たした。解決策はより安価なモデルではなく、システム設計にあった。すなわち、厳格なコンテキストの刈り込み、セッションのリセット、非推論タスクへのn8nの活用、そして安価モデルと高性能モデルを使い分けるルーティング階層である。