Opus 4.7 Reasoning Effort Benchmark: Medium schlägt High und Max bei realen Aufgaben

✍️ OpenClawRadar📅 Veröffentlicht: 13. Mai 2026🔗 Source
Ad

Reddit-Nutzer ktane testete Claude Opus 4.7 in Claude Code mit fünf Reasoning-Aufwandsstufen (low, medium, high, xhigh, max) an 29 realen Aufgaben aus dem Open-Source-Repository GraphQL-go-tools. Das Ergebnis: Mittlerer Reasoning-Aufwand übertraf höhere Einstellungen durchgängig bei der Testbestehensquote, der semantischen Äquivalenz mit menschlichen Patches, der Code-Review-Bestehensquote sowie den aggregierten Craft-/Disziplinwerten.

Ad

Wichtige Ergebnisse

  • Bestehensquote aller Aufgaben: Medium 28/29, Max 27/29, High 26/29, Xhigh 25/29, Low 23/29
  • Äquivalente Patches: Medium 14/29, Max 13/29, High 12/29, Xhigh 11/29, Low 10/29
  • Code-Review-Bestehensquote: Medium 10/29, High 7/29, Max 8/29, Xhigh 4/29, Low 5/29
  • Code-Review-Rubrik-Mittelwert: Medium 2,716, High 2,509, Xhigh 2,482, Max 2,431, Low 2,426
  • Fußabdruck-Risiko (niedriger ist besser): Low 0,155, Medium 0,189, High 0,206, Max 0,227, Xhigh 0,238
  • Kosten pro Aufgabe: Low 2,50 $, Medium 3,15 $, High 5,01 $, Xhigh 6,51 $, Max 8,84 $
  • Dauer pro Aufgabe: Low 383,8 s, Medium 450,7 s, High 716,4 s, Xhigh 803,8 s, Max 996,9 s
  • Äquivalente Bestehen pro Dollar: Low 4,0, Medium 4,4, High 2,4, Xhigh 1,7, Max 1,5

Der Autor stellt fest, dass Opus 4.7 adaptives Denken nutzt – es weist bereits pro Aufgabe ein Reasoning-Budget zu. Der Aufwandsregler beeinflusst somit eine bereits adaptive Richtlinie, anstatt rohe Intelligenz hinzuzufügen. Bemerkenswerterweise verschwendeten hohe und sehr hohe Einstellungen in einem PR (#1260) zusätzliches Reasoning darauf, Commit-Hashes aus früheren PRs auszugraben, und kamen zu dem Schluss, dass 'keine Arbeit nötig' sei, während mittlere und maximale Einstellungen korrekt den Kontrollfluss lasen und eine Fehlerbehebung erstellten.

Dies steht im Gegensatz zu GPT-5.5 in Codex, das die intuitive monotone Kurve zeigte, bei der mehr Reasoning die Qualität verbesserte. Der vollständige interaktive Bericht mit aufgabenspezifischen Details ist unter stet.sh verfügbar.

📖 Vollständige Quelle lesen: r/ClaudeAI

Ad

👀 Siehe auch

Reddit-Nutzer vergleicht Claude Sonnet 4.6 und GPT-5 bei 10 Blogging-Aufgaben
Nachrichten

Reddit-Nutzer vergleicht Claude Sonnet 4.6 und GPT-5 bei 10 Blogging-Aufgaben

Ein Reddit-Nutzer testete Claude Sonnet 4.6 gegen GPT-5 mit identischen Prompts für 10 gängige Blogging-Aufgaben und stellte fest, dass die Bearbeitungszeitdifferenz die nützlichste Metrik war.

OpenClawRadar
Claude Code v2.1.85 Veröffentlichung: MCP-Verbesserungen, Hook-Filter und Fehlerbehebungen
Nachrichten

Claude Code v2.1.85 Veröffentlichung: MCP-Verbesserungen, Hook-Filter und Fehlerbehebungen

Claude Code v2.1.85 fügt Umgebungsvariablen für MCP headersHelper-Skripte hinzu, bedingte if-Felder für Hooks, um Prozess-Spawning zu reduzieren, und behebt Fehler bei /compact-Fehlschlägen, Plugin-Aktivierungs-/Deaktivierungsproblemen sowie Terminal-Tastaturproblemen in Ghostty, Kitty und WezTerm.

OpenClawRadar
Linux-Kernel-Entwickler schlagen vor, Legacy-Code aufgrund von LLM-generierten Fehlerberichten zu entfernen
Nachrichten

Linux-Kernel-Entwickler schlagen vor, Legacy-Code aufgrund von LLM-generierten Fehlerberichten zu entfernen

Linux-Kernel-Entwickler schlagen vor, mehrere veraltete Subsysteme zu entfernen, darunter ISA/PCMCIA-Ethernet-Treiber, Amateurfunkprotokolle, ATM und ISDN, um die Belastung durch Sicherheitsfehlermeldungen zu verringern, die von großen Sprachmodellen generiert werden.

OpenClawRadar
KI-Codierungsagenten haben Schwierigkeiten mit der Kontextverwaltung in großen Codebasen.
Nachrichten

KI-Codierungsagenten haben Schwierigkeiten mit der Kontextverwaltung in großen Codebasen.

Eine Analyse von KI-Codierungsagenten zeigt, dass sie 15-20 Tool-Aufrufe für Orientierungsaufgaben wie das Durchsuchen von Routen und das Lesen von Middleware verwenden, bevor sie Code schreiben, wodurch Kontextfenster aufgebraucht werden. Vercel erreichte 100% Genauigkeit, indem es 80% der Tools entfernte und Bash verwendete, während Pi nur 4 Tools und einen Systemprompt mit weniger als 1.000 Tokens nutzt.

OpenClawRadar