Berkeley-Studie: Alle KI-Überarbeitungseingaben treiben Prosa in Richtung Formalität, selbst bei "Stimme bewahren"

Tom van Nuenen von der UC Berkeley ließ 300 persönliche Erzählungen durch drei führende Modelle (Claude-Klasse, ChatGPT-Klasse, Gemini-Klasse) unter drei Prompt-Bedingungen laufen: generisches „Verbessere dies“, generisches „Schreibe dies um“ und explizit „Überarbeite dies unter Wahrung der ursprünglichen Stimme“. Er maß 13 stilometrische Marker in Eingabe und Ausgabe: Funktionswörter, Kontraktionen, Ich-Pronomen, Wortschatzvielfalt, Satzlängenvariation, Zeichensetzungsmuster und Emotionswörter.
Das Ergebnis: Jedes Modell driftete unter jeder Bedingung in dieselbe Richtung. Die Ausgabe hatte weniger Kontraktionen, weniger Ich-Pronomen, eine größere Wortschatzverteilung, längere Wörter und eine aufwendigere Zeichensetzung. Die Verschiebung bewegte die Prosa vom eingebetteten Erzählen hin zum distanzierten Erzählen. Der Prompt „Stimme bewahren“ verringerte nur das Ausmaß der Drift, nicht deren Richtung.
Einfach ausgedrückt: Jede KI-Überarbeitungsaufforderung macht die Prosa höflicher, formeller und gefälliger – selbst wenn der Prompt das Gegenteil sagt.
Auswirkungen auf Werkzeuge
Die Studie argumentiert, dass Stimmanweisungen auf einer Ebene liegen, die das Post-Training des Modells innerhalb von ein bis zwei Absätzen überschreibt. Jeder, der an Prompts, Beispiel-Einfügungen, benutzerdefinierten Anweisungen oder Charakterbeschreibungen für Ausgaben mit bestimmter Stimme (Schreiben, Dialoge, Marketingtexte, überzeugende Essays) arbeitet, hat an einem Problem mit einer strukturellen Obergrenze gearbeitet.
Sie bietet auch die klarste empirische Erklärung für die Claude 4.7-Prosa-Regression: Die zentrale Stimme von 4.7 ist tiefer kodiert als die von 4.6, weshalb sie die stilometrische Struktur besser liest (wie im Piper-Experiment gezeigt) und Abweichungen stärker widersteht (die Memo-Stimme-Beschwerden).
Constraints-basierte Architektur
Die Empfehlung des Autors: Wer die Stimme bei längeren Arbeiten bewahren möchte, muss die Architektur außerhalb des Prompts ansiedeln. Kompilierte Stilprofile sollten als verbindliche Einschränkungen auf jede Generierung angewendet werden – nicht als Prompt-Parameter, die überschrieben werden können. Eine Aufschlüsselung, warum jedes große Schreibwerkzeug (Sudowrite, NovelCrafter, Claude/ChatGPT direkt) an dieselbe Obergrenze stößt und wie eine constraints-basierte Architektur in der Praxis aussieht, finden Sie im verlinkten Blogbeitrag unten.
Studie: https://arxiv.org/abs/2604.22142
📖 Vollständige Quelle lesen: r/ClaudeAI
👀 Siehe auch

Claude MAX Plan beinhaltet jetzt ein 1-Million-Token-Kontextfenster ohne Aufpreis
Der Claude MAX-Plan wurde automatisch auf ein 1-Millionen-Token-Kontextfenster erweitert, ohne zusätzliche API-Nutzungsgebühren, wobei Nutzer über deutlich reduzierten Token-Verbrauch und den Wegfall des Kontextfenster-Managements berichten.

Claude-Code v2.1.88 Veröffentlichung: Flimmerfreies Rendering, Permission-Hooks und kritische Fehlerbehebungen
Claude-Code v2.1.88 führt eine flimmerfreie Rendering-Option über CLAUDE_CODE_NO_FLICKER=1 ein, fügt einen PermissionDenied-Hook für Wiederholungsversuche im Automodus hinzu und behebt Speicherlecks, Abstürze sowie Rendering-Probleme in Windows-, macOS- und Linux-Terminals.

MiMo-V2.5-Pro im Benchmark: Starke soziale Deduktionslogik, gutes Preis-Leistungs-Verhältnis im Vergleich zu K2.6
MiMo-V2.5-Pro konkurriert mit Kimi K2.6 in autonomen Blood on the Clocktower-Spielen, mit einer unausgewogenen Siegquote von 88% für das gute Team und 48% für das böse Team, kostet 0,99 $ pro Spiel bei 183.000 Ausgabetoken und ist mit 2-3-stündigen Matches praktisch.

Claude-Code-Ratenbeschränkungen könnten auf eine Überlastung des 1-Millionen-Token-Kontextfensters zurückzuführen sein
Ein Reddit-Nutzer vermutet, dass die kürzlichen Ratenbegrenzungen und Ausfälle von Claude Code auf das 1-Millionen-Token-Kontextfenster in Opus 4.6 zurückzuführen sind, was möglicherweise ineffiziente Kontextkomprimierung und Serverüberlastung verursacht. Ein Wechsel zum älteren Modell ohne 1-Millionen-Token-Kontext soll die Stabilität verbessern.