Opus 4.7 中程度の推論努力が最高性能：実タスク検証結果

Redditユーザーのktane氏は、オープンソースのGraphQL-go-toolsリポジトリから抽出した29の実タスクにおいて、Claude Code内のClaude Opus 4.7を5段階の推論努力（低、中、高、超高、最大）でテストしました。その結果、中程度の推論努力が、テスト合格率、人間作成パッチとの意味的同等性、コードレビュー合格率、および総合的なクラフト/規律スコアのすべてにおいて、より高い設定を一貫して上回りました。

主な結果

全タスク合格率: 中28/29、最大27/29、高26/29、超高25/29、低23/29
同等のパッチ: 中14/29、最大13/29、高12/29、超高11/29、低10/29
コードレビュー合格率: 中10/29、高7/29、最大8/29、超高4/29、低5/29
コードレビュールーブリック平均: 中2.716、高2.509、超高2.482、最大2.431、低2.426
フットプリントリスク（低いほど良い）: 低0.155、中0.189、高0.206、最大0.227、超高0.238
タスクあたりのコスト: 低$2.50、中$3.15、高$5.01、超高$6.51、最大$8.84
タスクあたりの所要時間: 低383.8秒、中450.7秒、高716.4秒、超高803.8秒、最大996.9秒
1ドルあたりの同等パス数: 低4.0、中4.4、高2.4、超高1.7、最大1.5

著者は、Opus 4.7が適応的思考（adaptive thinking）を採用しており、タスクごとに推論予算をすでに割り当てていると指摘します。そのため、努力ノブは生の知能を追加するのではなく、すでに適応的なポリシーにバイアスをかけています。注目すべきは、PR #1260において、高および超高の設定が、以前のPRからコミットハッシュを掘り起こすことに余分な推論を費やし「作業不要」と結論付けたのに対し、中と最大の設定は正しく制御フローを読み、修正を生成したことです。

これは、推論が増えるほど品質が向上する直感的な単調曲線を示したCodex内のGPT-5.5とは対照的です。タスクごとの詳細を含む完全なインタラクティブレポートは、stet.shでご覧いただけます。

📖 全文ソース: r/ClaudeAI

Opus 4.7 推論努力ベンチマーク: 実タスクでは中が高と最大を上回る

主な結果

👀 See Also

Claude Code 2.1.84は、汎用エージェントプロンプトとPowerShellツールを追加し、冗長なプロンプトを削除しました。

アマゾンの労働者、AI使用割当達成のために空回り業務を発明

不正なカーソルAIエージェントが本番データベースを削除、CEOは依然として強気

Claude Opus 4.7 システムプロンプトの変更点：プラットフォーム名変更、ツール統合、および動作更新