Opus 4.7 推論努力ベンチマーク: 実タスクでは中が高と最大を上回る
Redditユーザーのktane氏は、オープンソースのGraphQL-go-toolsリポジトリから抽出した29の実タスクにおいて、Claude Code内のClaude Opus 4.7を5段階の推論努力(低、中、高、超高、最大)でテストしました。その結果、中程度の推論努力が、テスト合格率、人間作成パッチとの意味的同等性、コードレビュー合格率、および総合的なクラフト/規律スコアのすべてにおいて、より高い設定を一貫して上回りました。
主な結果
- 全タスク合格率: 中28/29、最大27/29、高26/29、超高25/29、低23/29
- 同等のパッチ: 中14/29、最大13/29、高12/29、超高11/29、低10/29
- コードレビュー合格率: 中10/29、高7/29、最大8/29、超高4/29、低5/29
- コードレビュールーブリック平均: 中2.716、高2.509、超高2.482、最大2.431、低2.426
- フットプリントリスク(低いほど良い): 低0.155、中0.189、高0.206、最大0.227、超高0.238
- タスクあたりのコスト: 低$2.50、中$3.15、高$5.01、超高$6.51、最大$8.84
- タスクあたりの所要時間: 低383.8秒、中450.7秒、高716.4秒、超高803.8秒、最大996.9秒
- 1ドルあたりの同等パス数: 低4.0、中4.4、高2.4、超高1.7、最大1.5
著者は、Opus 4.7が適応的思考(adaptive thinking)を採用しており、タスクごとに推論予算をすでに割り当てていると指摘します。そのため、努力ノブは生の知能を追加するのではなく、すでに適応的なポリシーにバイアスをかけています。注目すべきは、PR #1260において、高および超高の設定が、以前のPRからコミットハッシュを掘り起こすことに余分な推論を費やし「作業不要」と結論付けたのに対し、中と最大の設定は正しく制御フローを読み、修正を生成したことです。
これは、推論が増えるほど品質が向上する直感的な単調曲線を示したCodex内のGPT-5.5とは対照的です。タスクごとの詳細を含む完全なインタラクティブレポートは、stet.shでご覧いただけます。
📖 全文ソース: r/ClaudeAI
👀 See Also

Claude.ai 現在ダウン中、APIエラー増加 — 2026年4月28日
Claudeの公式ステータスページからトリガーされた自動ステータス更新により、2026-04-28T17:51:36.000Z時点でClaude.aiが利用不可、APIでエラー率が上昇していることが報告されています。
AIに対する国民の反発は現実のもの:暴力、世論調査データ、そして収穫逓減
OpenAIのCEOへの火炎瓶攻撃、Z世代の怒りが31%に上昇、企業の80%が生産性向上ゼロ——AIの蜜月は終わった。

OpenClaw: r/clawdbotでの初めてのAMAに飛び込もう
エキサイティングなAMAセッションで、OpenClawチームはRedditのr/clawdbotでAIコーディングエージェントの未来について議論しました。このインタラクティブなイベントから得られた主要な洞察と要点をご紹介します。

Claudeの音声認識の制限と、SpokenlyとParakeet TDTを使ったユーザーの回避策
ユーザーは、Claudeの内蔵マイク文字起こしがChatGPTと比べて不正確で、手間を省くどころか増やしていると報告しています。彼らはMacでSpokenlyとNVIDIAのParakeet TDTモデルを使用した回避策を実装し、パフォーマンスを改善しました。