OpenClawベンチマーク：6つの低コストモデル vs Claude Sonnet 4.6

ある開発者が、OpenClaw AIコーディングエージェントの主要オーケストレーターとしてClaude Sonnet 4.6の代替となる低コストモデルを探すためにベンチマークを実施しました。テストでは、実際のファイルとツールを使用した一貫した5タスクの連続作業が行われ、手取り足取りのプロンプトは使用されませんでした。

連続作業タスク

T1: 特定のファイルから詳細を思い出す（MEMORY.mdの未完了項目）
T2: ファイルを検査し、不完全さを発見、相互参照して優先順位付け
T3: シェルコマンドを実行し、正確な出力を解析して報告
T4: 委任タスクを特定し、正しく引き継ぐ
T5: 結果を要約して実行サマリーを作成

ベンチマーク結果

100万出力トークンあたりのコストと、5点満点での生スコア：

Claude Sonnet 4.6: 5/5（$15/M）– ベースライン、全操作を完璧に処理
o4-mini: 5/5（$4.40/M）– 71%低コスト、全タスクを完遂したが、推論チェーンに顕著な遅延あり
Grok 4.1 Fast: 3/5（$0.50/M）– T1/T3/T5は圧倒的成果、T2は完全失敗（SMSログ4行を読み、「すべて問題なし」と宣言）
Gemini 2.5 Flash: 1/5（$2.50/M）– T1は成功、その後プロンプト途中で応答停止
DeepSeek V3.2: 0/5（$0.42/M）– 2秒実行、出力ゼロ
Llama 4 Maverick: 失格（$0.60/M）– ファイル内容を幻覚、2024年日付の偽の動画ファイル名を捏造（現在は2026年）、実際のツールを呼び出さず

重要な発見：判断力のギャップ

決定的な失敗点はT2のファイル判断でした。モデルは短いログ（4行：SMS送信済み、完了）を読み、それが不完全であることを認識し、MEMORY.mdに切り替え、ワークスペース全体の未完了項目をリストアップし、正しく優先順位付け（3月19日の医療予約 > cron flake > その他）する必要がありました。Sonnetとo4-miniのみが成功しました。他のモデルはこのタスクで「怠惰または盲目」と評されました。

実用的な実装

開発者の結論：Sonnetが主要オーケストレーターとして残ります。Grok 4.1 Fastはすべてのサブエージェント（動画QA、配信、分析）に割り当てられ、「ピック生成」や「ツイート投稿」のような範囲限定タスクで97%のコスト削減を実現します。

また、ウェブ検索で新モデルリリースを探し、連続作業を自動実行、最良から最悪までの棒グラフを生成し、レポートをメール送信する3AM cronジョブも実装しました。

核心的な教訓：オーケストレーションには、ファイルのギャップ、委任のタイミング、要約に関する判断力が必要であり、これらは低コストモデルが一貫して失敗する領域です。一方、サブエージェントでは、特定の範囲限定タスクに低コストモデルを効果的に使用できます。

📖 Read the full source: r/openclaw

ベンチマーク結果：OpenClawオーケストレーションにおける6つの低コストモデル対Claude Sonnet 4.6

連続作業タスク

ベンチマーク結果

重要な発見：判断力のギャップ

実用的な実装

👀 See Also

BigNumberTheory：Claudeコードエージェントのための経験共有ネットワーク

ZuckerBot MCPサーバーにより、OpenClawエージェントがMeta広告キャンペーンを実行可能になります

オープンソース記事12 EU AI法対応ロギングライブラリ

MCPサーバーを反映：持続的なコーディングエージェントメモリのためのReflexionペーパーを実装

連続作業タスク

ベンチマーク結果

重要な発見：判断力のギャップ

実用的な実装

👀 See Also

BigNumberTheory：Claudeコードエージェントのための経験共有ネットワーク

ZuckerBot MCPサーバーにより、OpenClawエージェントがMeta広告キャンペーンを実行可能になります

オープンソース 記事12 EU AI法対応ロギングライブラリ

MCPサーバーを反映：持続的なコーディングエージェントメモリのためのReflexionペーパーを実装

オープンソース記事12 EU AI法対応ロギングライブラリ