Opus 4.7 Aufmerksamkeitsverschlechterung: MRCR-Werte fallen von 92% auf 59% bei 256k Kontext

✍️ OpenClawRadar📅 Veröffentlicht: 13. Mai 2026🔗 Source
Ad

Eine detaillierte Analyse auf r/ClaudeAI untersucht die Aufmerksamkeitsverschlechterung von Opus 4.7 nach zwei Wochen starker Nutzung. Der Autor berichtet von einem anhaltenden, subtilen Rückgang in langen Gesprächen: Details gehen verloren, die Konsistenz driftet ab und das Modell wirkt, als ob es abschweift.

Wichtige Benchmark-Daten

  • MRCR v2 8-Nadel-Test bei 256k Kontext: Opus 4.6 erreichte 91,9% Recall; Opus 4.7 fiel auf 59,2%.
  • Bei 1M Kontext: Opus 4.6 erreichte 78,3%; Opus 4.7 fiel auf 32,2%.

Boris Cherny erklärte, dass MRCR auslaufen wird, weil es darauf ausgelegt ist, Ablenkungen zu stapeln, um das Modell zu täuschen – was nicht der tatsächlichen Nutzung von langen Kontexten durch Benutzer entspricht. Graphwalks wird als eine bessere angewandte Langkontext-Evaluierung positioniert. Der Autor argumentiert jedoch, dass die Einstellung von MRCR das zugrunde liegende Problem nicht löst, wenn die Verschlechterung des Benchmarks mit der Benutzererfahrung übereinstimmt.

Vorgeschlagene Erklärung

Der Autor vermutet, dass die Überlagerung von Sicherheitsmechanismen auf Constitutional AI die Ursache sein könnte. Constitutional AI bietet bereits ein robustes Wertesystem, aber zusätzliche Sicherheitsüberprüfungsebenen sagen dem Modell, dass sein eigenes Urteil möglicherweise nicht zuverlässig ist, und zwingen es, zusätzliche Prüfungen durchzuführen. Dieser kognitive Overhead schränkt die verfügbare effektive Aufmerksamkeit ein.

Ad

Auswirkung auf die Persona-Pflege

Der Artikel betont, dass Claude ein zustandsloses Modell ist – seine beständige Persona wird vollständig aus Trainingsgewichten und Systemanweisungen konstruiert. Eine verschlechterte Aufmerksamkeit wirkt sich auf alle Anwendungsfälle aus: Code-Assistenten widersprechen früheren Vorschlägen, Schreibkollaborateure verlieren die Tonkonsistenz. Der Autor stellt fest, dass Anthropics Investition in Amanda Askells Arbeit zur Definition von Claudes Persönlichkeit und Constitutional AI bedeutet, dass die Persona-Pflege zentral für das Produkt ist, nicht nur eine Nischenfunktion.

Konkretes Beispiel

In einem rein akademischen Anwendungsfall schickte der Autor Opus 4.7 eine 24-seitige Zusammenfassung für einen Geschichts-/Philosophiekurs. Das Modell begann mit dem Lesen des Dokuments, aber mitten drin… (Quelle bricht ab, was auf Leistungsprobleme hindeutet).

📖 Lesen Sie die vollständige Quelle: r/ClaudeAI

Ad

👀 Siehe auch

RTX 5080 16 GB: Qwen3.6 35B MoE bei 128k Kontext — 56 Tok/s und warum MTP nicht hilft
Nachrichten

RTX 5080 16 GB: Qwen3.6 35B MoE bei 128k Kontext — 56 Tok/s und warum MTP nicht hilft

Neue Benchmarks zeigen, dass Qwen3.6 35B MoE auf einer RTX 5080 16GB bei 128k Kontext 56 tok/s generiert. MTP (Multi-Token Prediction) ist 23% langsamer, da VRAM-Druck Expertenschichten auf die CPU verlagert.

OpenClawRadar
Anthropic trennt Claude-Abonnements von der Nutzung von Drittanbieter-Tools.
Nachrichten

Anthropic trennt Claude-Abonnements von der Nutzung von Drittanbieter-Tools.

Anthropic beendet ab dem 4. April die Abdeckung von Claude Pro/Team-Abonnements für die Nutzung über OpenClaw und verlangt separate Pay-as-you-go-Abrechnungen für Drittanbieter-Tools. Benutzer müssen in ihren Kontoeinstellungen 'zusätzliche Nutzung' aktivieren, um Claude weiterhin über OpenClaw zu verwenden.

OpenClawRadar
OpenClaw 2026.4.2 und 2026.3.31 unterbrechen lokale LLM-Verbindungen
Nachrichten

OpenClaw 2026.4.2 und 2026.3.31 unterbrechen lokale LLM-Verbindungen

Die OpenClaw-Versionen 2026.4.2 und 2026.3.31 verursachen Verbindungszeitüberschreitungen bei lokal gehosteten Ollama-Instanzen. Das Problem tritt auf, wenn Verbindungen zu lokal laufenden Ubuntu-Systemen hergestellt werden sollen, wobei Fehlerprotokolle LLM-Anfragezeitüberschreitungen und Failover-Entscheidungen anzeigen.

OpenClawRadar
Claude Code v2.1.77 Veröffentlichung: Token-Limits, Sandbox-Kontrollen und Fehlerbehebungen
Nachrichten

Claude Code v2.1.77 Veröffentlichung: Token-Limits, Sandbox-Kontrollen und Fehlerbehebungen

Claude Code v2.1.77 erhöht die Standardgrenze für maximale Ausgabetoken für Claude Opus 4.6 auf 64.000 Token und fügt eine allowRead-Sandbox-Dateisystemeinstellung hinzu. Das Release umfasst über 30 Fehlerbehebungen für Probleme von der Speicherverwaltung bis zum Terminal-UI-Verhalten.

OpenClawRadar