ベンチマーク結果:OpenClawオーケストレーションにおける6つの低コストモデル対Claude Sonnet 4.6

ある開発者が、OpenClaw AIコーディングエージェントの主要オーケストレーターとしてClaude Sonnet 4.6の代替となる低コストモデルを探すためにベンチマークを実施しました。テストでは、実際のファイルとツールを使用した一貫した5タスクの連続作業が行われ、手取り足取りのプロンプトは使用されませんでした。
連続作業タスク
- T1: 特定のファイルから詳細を思い出す(MEMORY.mdの未完了項目)
- T2: ファイルを検査し、不完全さを発見、相互参照して優先順位付け
- T3: シェルコマンドを実行し、正確な出力を解析して報告
- T4: 委任タスクを特定し、正しく引き継ぐ
- T5: 結果を要約して実行サマリーを作成
ベンチマーク結果
100万出力トークンあたりのコストと、5点満点での生スコア:
- Claude Sonnet 4.6: 5/5($15/M)– ベースライン、全操作を完璧に処理
- o4-mini: 5/5($4.40/M)– 71%低コスト、全タスクを完遂したが、推論チェーンに顕著な遅延あり
- Grok 4.1 Fast: 3/5($0.50/M)– T1/T3/T5は圧倒的成果、T2は完全失敗(SMSログ4行を読み、「すべて問題なし」と宣言)
- Gemini 2.5 Flash: 1/5($2.50/M)– T1は成功、その後プロンプト途中で応答停止
- DeepSeek V3.2: 0/5($0.42/M)– 2秒実行、出力ゼロ
- Llama 4 Maverick: 失格($0.60/M)– ファイル内容を幻覚、2024年日付の偽の動画ファイル名を捏造(現在は2026年)、実際のツールを呼び出さず
重要な発見:判断力のギャップ
決定的な失敗点はT2のファイル判断でした。モデルは短いログ(4行:SMS送信済み、完了)を読み、それが不完全であることを認識し、MEMORY.mdに切り替え、ワークスペース全体の未完了項目をリストアップし、正しく優先順位付け(3月19日の医療予約 > cron flake > その他)する必要がありました。Sonnetとo4-miniのみが成功しました。他のモデルはこのタスクで「怠惰または盲目」と評されました。
実用的な実装
開発者の結論:Sonnetが主要オーケストレーターとして残ります。Grok 4.1 Fastはすべてのサブエージェント(動画QA、配信、分析)に割り当てられ、「ピック生成」や「ツイート投稿」のような範囲限定タスクで97%のコスト削減を実現します。
また、ウェブ検索で新モデルリリースを探し、連続作業を自動実行、最良から最悪までの棒グラフを生成し、レポートをメール送信する3AM cronジョブも実装しました。
核心的な教訓:オーケストレーションには、ファイルのギャップ、委任のタイミング、要約に関する判断力が必要であり、これらは低コストモデルが一貫して失敗する領域です。一方、サブエージェントでは、特定の範囲限定タスクに低コストモデルを効果的に使用できます。
📖 Read the full source: r/openclaw
👀 See Also

Windowsシステムトレイアプリ:リアルタイムClaude API使用状況モニタリング
開発者が、Claude APIの使用量をリアルタイムで表示する軽量なWindowsトレイアプリケーションを構築しました。このアプリは、5時間と7日間のウィンドウ、今日のトークン数、枯渇予測を表示し、韓国語、英語、中国語、日本語のUIをサポートし、GitHubでオープンソースとして公開されています。

OmniCoder-9Bのファインチューニングは、8GB VRAMシステム上でのエージェント型コーディングにおいて優れたパフォーマンスを示しています。
Redditユーザーが、OpusトレースでQwen3.5-9BをファインチューニングしたOmniCoder-9BをOpenCodeでテストし、8GB VRAMシステムで100kコンテキスト長のQ4_K_M GGUF量子化を使用して毎秒40トークン以上の速度を報告しました。

Claudeコードのためのマルチエージェントアーキテクチャを用いた「研究チーム・イン・ザ・ボックス」フレームワーク
開発者がClaude Code向けのマルチエージェント研究フレームワークを作成しました。このフレームワークはOpus 4.6を活用し、research-clabというプラグインを通じて専門エージェントを調整します。ガイド付きのQ&Aプロセスで展開され、11のスキル、エージェント定義、複雑な研究プロジェクトを管理するための構造化ディレクトリを含んでいます。

プロジェクトレジャー:AIコーディングエージェントのためのヒューマン・イン・ザ・ループ記憶システム
GitHubプロジェクト「project-ledger」は、AIコーディングエージェントがコードベースについて記憶する内容を人間が管理するためのヒューマン・イン・ザ・ループシステムを提供します。その核心的な課題は、エージェントが何が重要かを判断できないことです。実装上のバグとアーキテクチャ上の欠陥を同じように扱い、何を変更したかではなく、何が重要かを記録します。