Opus 4.7 推論努力ベンチマーク: 実タスクでは中が高と最大を上回る

✍️ OpenClawRadar📅 公開日: May 13, 2026🔗 Source
Ad

Redditユーザーのktane氏は、オープンソースのGraphQL-go-toolsリポジトリから抽出した29の実タスクにおいて、Claude Code内のClaude Opus 4.7を5段階の推論努力(低、中、高、超高、最大)でテストしました。その結果、中程度の推論努力が、テスト合格率、人間作成パッチとの意味的同等性、コードレビュー合格率、および総合的なクラフト/規律スコアのすべてにおいて、より高い設定を一貫して上回りました。

Ad

主な結果

  • 全タスク合格率: 中28/29、最大27/29、高26/29、超高25/29、低23/29
  • 同等のパッチ: 中14/29、最大13/29、高12/29、超高11/29、低10/29
  • コードレビュー合格率: 中10/29、高7/29、最大8/29、超高4/29、低5/29
  • コードレビュールーブリック平均: 中2.716、高2.509、超高2.482、最大2.431、低2.426
  • フットプリントリスク(低いほど良い): 低0.155、中0.189、高0.206、最大0.227、超高0.238
  • タスクあたりのコスト: 低$2.50、中$3.15、高$5.01、超高$6.51、最大$8.84
  • タスクあたりの所要時間: 低383.8秒、中450.7秒、高716.4秒、超高803.8秒、最大996.9秒
  • 1ドルあたりの同等パス数: 低4.0、中4.4、高2.4、超高1.7、最大1.5

著者は、Opus 4.7が適応的思考(adaptive thinking)を採用しており、タスクごとに推論予算をすでに割り当てていると指摘します。そのため、努力ノブは生の知能を追加するのではなく、すでに適応的なポリシーにバイアスをかけています。注目すべきは、PR #1260において、高および超高の設定が、以前のPRからコミットハッシュを掘り起こすことに余分な推論を費やし「作業不要」と結論付けたのに対し、中と最大の設定は正しく制御フローを読み、修正を生成したことです。

これは、推論が増えるほど品質が向上する直感的な単調曲線を示したCodex内のGPT-5.5とは対照的です。タスクごとの詳細を含む完全なインタラクティブレポートは、stet.shでご覧いただけます。

📖 全文ソース: r/ClaudeAI

Ad

👀 See Also