Berkeley-Studie: Alle KI-Überarbeitungseingaben treiben Prosa in Richtung Formalität, selbst bei "Stimme bewahren"

✍️ OpenClawRadar📅 Veröffentlicht: 2. Mai 2026🔗 Source
Berkeley-Studie: Alle KI-Überarbeitungseingaben treiben Prosa in Richtung Formalität, selbst bei "Stimme bewahren"
Ad

Tom van Nuenen von der UC Berkeley ließ 300 persönliche Erzählungen durch drei führende Modelle (Claude-Klasse, ChatGPT-Klasse, Gemini-Klasse) unter drei Prompt-Bedingungen laufen: generisches „Verbessere dies“, generisches „Schreibe dies um“ und explizit „Überarbeite dies unter Wahrung der ursprünglichen Stimme“. Er maß 13 stilometrische Marker in Eingabe und Ausgabe: Funktionswörter, Kontraktionen, Ich-Pronomen, Wortschatzvielfalt, Satzlängenvariation, Zeichensetzungsmuster und Emotionswörter.

Das Ergebnis: Jedes Modell driftete unter jeder Bedingung in dieselbe Richtung. Die Ausgabe hatte weniger Kontraktionen, weniger Ich-Pronomen, eine größere Wortschatzverteilung, längere Wörter und eine aufwendigere Zeichensetzung. Die Verschiebung bewegte die Prosa vom eingebetteten Erzählen hin zum distanzierten Erzählen. Der Prompt „Stimme bewahren“ verringerte nur das Ausmaß der Drift, nicht deren Richtung.

Einfach ausgedrückt: Jede KI-Überarbeitungsaufforderung macht die Prosa höflicher, formeller und gefälliger – selbst wenn der Prompt das Gegenteil sagt.

Ad

Auswirkungen auf Werkzeuge

Die Studie argumentiert, dass Stimmanweisungen auf einer Ebene liegen, die das Post-Training des Modells innerhalb von ein bis zwei Absätzen überschreibt. Jeder, der an Prompts, Beispiel-Einfügungen, benutzerdefinierten Anweisungen oder Charakterbeschreibungen für Ausgaben mit bestimmter Stimme (Schreiben, Dialoge, Marketingtexte, überzeugende Essays) arbeitet, hat an einem Problem mit einer strukturellen Obergrenze gearbeitet.

Sie bietet auch die klarste empirische Erklärung für die Claude 4.7-Prosa-Regression: Die zentrale Stimme von 4.7 ist tiefer kodiert als die von 4.6, weshalb sie die stilometrische Struktur besser liest (wie im Piper-Experiment gezeigt) und Abweichungen stärker widersteht (die Memo-Stimme-Beschwerden).

Constraints-basierte Architektur

Die Empfehlung des Autors: Wer die Stimme bei längeren Arbeiten bewahren möchte, muss die Architektur außerhalb des Prompts ansiedeln. Kompilierte Stilprofile sollten als verbindliche Einschränkungen auf jede Generierung angewendet werden – nicht als Prompt-Parameter, die überschrieben werden können. Eine Aufschlüsselung, warum jedes große Schreibwerkzeug (Sudowrite, NovelCrafter, Claude/ChatGPT direkt) an dieselbe Obergrenze stößt und wie eine constraints-basierte Architektur in der Praxis aussieht, finden Sie im verlinkten Blogbeitrag unten.

Studie: https://arxiv.org/abs/2604.22142

📖 Vollständige Quelle lesen: r/ClaudeAI

Ad

👀 Siehe auch

Claude MAX Plan beinhaltet jetzt ein 1-Million-Token-Kontextfenster ohne Aufpreis
Nachrichten

Claude MAX Plan beinhaltet jetzt ein 1-Million-Token-Kontextfenster ohne Aufpreis

Der Claude MAX-Plan wurde automatisch auf ein 1-Millionen-Token-Kontextfenster erweitert, ohne zusätzliche API-Nutzungsgebühren, wobei Nutzer über deutlich reduzierten Token-Verbrauch und den Wegfall des Kontextfenster-Managements berichten.

OpenClawRadar
Claude-Code v2.1.88 Veröffentlichung: Flimmerfreies Rendering, Permission-Hooks und kritische Fehlerbehebungen
Nachrichten

Claude-Code v2.1.88 Veröffentlichung: Flimmerfreies Rendering, Permission-Hooks und kritische Fehlerbehebungen

Claude-Code v2.1.88 führt eine flimmerfreie Rendering-Option über CLAUDE_CODE_NO_FLICKER=1 ein, fügt einen PermissionDenied-Hook für Wiederholungsversuche im Automodus hinzu und behebt Speicherlecks, Abstürze sowie Rendering-Probleme in Windows-, macOS- und Linux-Terminals.

OpenClawRadar
MiMo-V2.5-Pro im Benchmark: Starke soziale Deduktionslogik, gutes Preis-Leistungs-Verhältnis im Vergleich zu K2.6
Nachrichten

MiMo-V2.5-Pro im Benchmark: Starke soziale Deduktionslogik, gutes Preis-Leistungs-Verhältnis im Vergleich zu K2.6

MiMo-V2.5-Pro konkurriert mit Kimi K2.6 in autonomen Blood on the Clocktower-Spielen, mit einer unausgewogenen Siegquote von 88% für das gute Team und 48% für das böse Team, kostet 0,99 $ pro Spiel bei 183.000 Ausgabetoken und ist mit 2-3-stündigen Matches praktisch.

OpenClawRadar
Claude-Code-Ratenbeschränkungen könnten auf eine Überlastung des 1-Millionen-Token-Kontextfensters zurückzuführen sein
Nachrichten

Claude-Code-Ratenbeschränkungen könnten auf eine Überlastung des 1-Millionen-Token-Kontextfensters zurückzuführen sein

Ein Reddit-Nutzer vermutet, dass die kürzlichen Ratenbegrenzungen und Ausfälle von Claude Code auf das 1-Millionen-Token-Kontextfenster in Opus 4.6 zurückzuführen sind, was möglicherweise ineffiziente Kontextkomprimierung und Serverüberlastung verursacht. Ein Wechsel zum älteren Modell ohne 1-Millionen-Token-Kontext soll die Stabilität verbessern.

OpenClawRadar