Opus 4.7: MRCR-Werte fallen von 92% auf 59% bei 256k Kontext

Eine detaillierte Analyse auf r/ClaudeAI untersucht die Aufmerksamkeitsverschlechterung von Opus 4.7 nach zwei Wochen starker Nutzung. Der Autor berichtet von einem anhaltenden, subtilen Rückgang in langen Gesprächen: Details gehen verloren, die Konsistenz driftet ab und das Modell wirkt, als ob es abschweift.

Wichtige Benchmark-Daten

MRCR v2 8-Nadel-Test bei 256k Kontext: Opus 4.6 erreichte 91,9% Recall; Opus 4.7 fiel auf 59,2%.
Bei 1M Kontext: Opus 4.6 erreichte 78,3%; Opus 4.7 fiel auf 32,2%.

Boris Cherny erklärte, dass MRCR auslaufen wird, weil es darauf ausgelegt ist, Ablenkungen zu stapeln, um das Modell zu täuschen – was nicht der tatsächlichen Nutzung von langen Kontexten durch Benutzer entspricht. Graphwalks wird als eine bessere angewandte Langkontext-Evaluierung positioniert. Der Autor argumentiert jedoch, dass die Einstellung von MRCR das zugrunde liegende Problem nicht löst, wenn die Verschlechterung des Benchmarks mit der Benutzererfahrung übereinstimmt.

Vorgeschlagene Erklärung

Der Autor vermutet, dass die Überlagerung von Sicherheitsmechanismen auf Constitutional AI die Ursache sein könnte. Constitutional AI bietet bereits ein robustes Wertesystem, aber zusätzliche Sicherheitsüberprüfungsebenen sagen dem Modell, dass sein eigenes Urteil möglicherweise nicht zuverlässig ist, und zwingen es, zusätzliche Prüfungen durchzuführen. Dieser kognitive Overhead schränkt die verfügbare effektive Aufmerksamkeit ein.

Auswirkung auf die Persona-Pflege

Der Artikel betont, dass Claude ein zustandsloses Modell ist – seine beständige Persona wird vollständig aus Trainingsgewichten und Systemanweisungen konstruiert. Eine verschlechterte Aufmerksamkeit wirkt sich auf alle Anwendungsfälle aus: Code-Assistenten widersprechen früheren Vorschlägen, Schreibkollaborateure verlieren die Tonkonsistenz. Der Autor stellt fest, dass Anthropics Investition in Amanda Askells Arbeit zur Definition von Claudes Persönlichkeit und Constitutional AI bedeutet, dass die Persona-Pflege zentral für das Produkt ist, nicht nur eine Nischenfunktion.

Konkretes Beispiel

In einem rein akademischen Anwendungsfall schickte der Autor Opus 4.7 eine 24-seitige Zusammenfassung für einen Geschichts-/Philosophiekurs. Das Modell begann mit dem Lesen des Dokuments, aber mitten drin… (Quelle bricht ab, was auf Leistungsprobleme hindeutet).

📖 Lesen Sie die vollständige Quelle: r/ClaudeAI

Opus 4.7 Aufmerksamkeitsverschlechterung: MRCR-Werte fallen von 92% auf 59% bei 256k Kontext

Wichtige Benchmark-Daten

Vorgeschlagene Erklärung

Auswirkung auf die Persona-Pflege

Konkretes Beispiel

👀 Siehe auch

61 % der Menschen nutzen jetzt KI für psychische Gesundheitsunterstützung — AXA/Ipsos globale Umfrage

1-Bit Bonsai Image 4B: Bildgenerierung auf dem Gerät mittels Binary/Ternary FLUX.2

Claude-Nutzer systematisch von KI-Psychologieforschung ausgeschlossen – Eine methodologische Lücke

Claude Design Abrechnungsfehler: Zusätzlicher Nutzungskauf wird nicht angewendet, Support-Bot fängt zahlende Nutzer