Opus 4.6 拡張思考は物理図問題で性能が低下

Ad
拡張思考モードにおけるパフォーマンスの問題
r/ClaudeAIのユーザーが、視覚的な図解の解釈を必要とする物理学の問題についてOpus 4.6とGemini 3.1 Proをテストしたと報告しました。このテストにより、拡張思考モードを使用した場合のOpus 4.6に特定のパフォーマンス低下が明らかになりました。
テストからの主な発見
- テスト範囲: 「問題の大部分がシナリオを示す視覚的な図解の解釈」である5つの物理学の問題
- 拡張思考モードを使用したOpus 4.6: 「図解の根本的な誤解により」5問すべてを「完全に間違えた」
- Gemini 3.1 Pro: 5問すべてを「完璧に解いた」
- 拡張思考モードを使用しないOpus 4.6: 問題を正常に解決し、「さらにずっと速かった」
ユーザーはこれを「本当に奇妙な動作」と表現しました。拡張思考モードは通常パフォーマンスを向上させますが、この特定の図解解釈の場合には一貫した失敗を引き起こしたからです。
📖 Read the full source: r/ClaudeAI
Ad
👀 See Also

News
Agent SDK対Claude CLI:ユーザー視点から見た実用的な違い
Redditユーザーが、Claude用の新しいAgent SDKと、ローカルでOpus 4.7を接続するためにClaude CLIを使用する場合の実用的な違いについて疑問を投げかけています。
OpenClawRadar

News
Claude Proユーザー、出力なしの単一プロンプトで5時間の使用枠を消費したと報告
Claude Proユーザーが、たった1つのプロンプトで5時間の使用枠をすべて消費し、計画テキストのみを返して成果物が得られなかったと報告。内部推論中のトークン消費と安全策の欠如に関する問題を浮き彫りにしている。
OpenClawRadar

News
SWE-rebenchリーダーボード更新:2026年2月の結果は接戦を明らかに
SWE-rebenchリーダーボードが2026年2月の結果で更新され、57の新規GitHub PRタスクがテストされました。Claude Opus 4.6が65.3%の解決率でトップを維持していますが、上位6モデルは5パーセントポイント以内に収まっています。
OpenClawRadar

News
AnthropicがClaude Codeのレート制限を倍増、SpaceXとコンピュート契約を締結
Claude Codeの5時間レート制限がPro/Max/Team/Enterpriseプランで2倍に拡大、ピーク時の引き下げが廃止され、OpusモデルのAPIレート制限が引き上げられました。SpaceX Colossus 1が1ヶ月以内に300MW以上の容量(22万基のNVIDIA GPU)を追加。
OpenClawRadar