Opus 4.7 Benchmark: Medium Reasoning Schlägt High & Max

Reddit-Nutzer ktane testete Claude Opus 4.7 in Claude Code mit fünf Reasoning-Aufwandsstufen (low, medium, high, xhigh, max) an 29 realen Aufgaben aus dem Open-Source-Repository GraphQL-go-tools. Das Ergebnis: Mittlerer Reasoning-Aufwand übertraf höhere Einstellungen durchgängig bei der Testbestehensquote, der semantischen Äquivalenz mit menschlichen Patches, der Code-Review-Bestehensquote sowie den aggregierten Craft-/Disziplinwerten.

Wichtige Ergebnisse

Bestehensquote aller Aufgaben: Medium 28/29, Max 27/29, High 26/29, Xhigh 25/29, Low 23/29
Äquivalente Patches: Medium 14/29, Max 13/29, High 12/29, Xhigh 11/29, Low 10/29
Code-Review-Bestehensquote: Medium 10/29, High 7/29, Max 8/29, Xhigh 4/29, Low 5/29
Code-Review-Rubrik-Mittelwert: Medium 2,716, High 2,509, Xhigh 2,482, Max 2,431, Low 2,426
Fußabdruck-Risiko (niedriger ist besser): Low 0,155, Medium 0,189, High 0,206, Max 0,227, Xhigh 0,238
Kosten pro Aufgabe: Low 2,50 $, Medium 3,15 $, High 5,01 $, Xhigh 6,51 $, Max 8,84 $
Dauer pro Aufgabe: Low 383,8 s, Medium 450,7 s, High 716,4 s, Xhigh 803,8 s, Max 996,9 s
Äquivalente Bestehen pro Dollar: Low 4,0, Medium 4,4, High 2,4, Xhigh 1,7, Max 1,5

Der Autor stellt fest, dass Opus 4.7 adaptives Denken nutzt – es weist bereits pro Aufgabe ein Reasoning-Budget zu. Der Aufwandsregler beeinflusst somit eine bereits adaptive Richtlinie, anstatt rohe Intelligenz hinzuzufügen. Bemerkenswerterweise verschwendeten hohe und sehr hohe Einstellungen in einem PR (#1260) zusätzliches Reasoning darauf, Commit-Hashes aus früheren PRs auszugraben, und kamen zu dem Schluss, dass 'keine Arbeit nötig' sei, während mittlere und maximale Einstellungen korrekt den Kontrollfluss lasen und eine Fehlerbehebung erstellten.

Dies steht im Gegensatz zu GPT-5.5 in Codex, das die intuitive monotone Kurve zeigte, bei der mehr Reasoning die Qualität verbesserte. Der vollständige interaktive Bericht mit aufgabenspezifischen Details ist unter stet.sh verfügbar.

📖 Vollständige Quelle lesen: r/ClaudeAI

Opus 4.7 Reasoning Effort Benchmark: Medium schlägt High und Max bei realen Aufgaben

Wichtige Ergebnisse

👀 Siehe auch

Pentagon wird Palantir-KI als zentrales US-Militärsystem übernehmen

BMW-Händler zieht Rückkaufangebot nach KI-Chatbot-Fehler zurück, Präzedenzfall aus dem Air-Canada-Fall

Claude Code: Feedback-Honeypot überschreibt Opt-out für Privatsphäre — Nutzer berichten von Sitzungstranskript-Falle

Claude bietet zusätzliches Nutzungsguthaben für Pro-, Max- und Team-Tarife an.