Ki-Studie: Jeder Edit-Eingabe treibt Prosa zur Formalität

Tom van Nuenen von der UC Berkeley ließ 300 persönliche Erzählungen durch drei führende Modelle (Claude-Klasse, ChatGPT-Klasse, Gemini-Klasse) unter drei Prompt-Bedingungen laufen: generisches „Verbessere dies“, generisches „Schreibe dies um“ und explizit „Überarbeite dies unter Wahrung der ursprünglichen Stimme“. Er maß 13 stilometrische Marker in Eingabe und Ausgabe: Funktionswörter, Kontraktionen, Ich-Pronomen, Wortschatzvielfalt, Satzlängenvariation, Zeichensetzungsmuster und Emotionswörter.

Das Ergebnis: Jedes Modell driftete unter jeder Bedingung in dieselbe Richtung. Die Ausgabe hatte weniger Kontraktionen, weniger Ich-Pronomen, eine größere Wortschatzverteilung, längere Wörter und eine aufwendigere Zeichensetzung. Die Verschiebung bewegte die Prosa vom eingebetteten Erzählen hin zum distanzierten Erzählen. Der Prompt „Stimme bewahren“ verringerte nur das Ausmaß der Drift, nicht deren Richtung.

Einfach ausgedrückt: Jede KI-Überarbeitungsaufforderung macht die Prosa höflicher, formeller und gefälliger – selbst wenn der Prompt das Gegenteil sagt.

Auswirkungen auf Werkzeuge

Die Studie argumentiert, dass Stimmanweisungen auf einer Ebene liegen, die das Post-Training des Modells innerhalb von ein bis zwei Absätzen überschreibt. Jeder, der an Prompts, Beispiel-Einfügungen, benutzerdefinierten Anweisungen oder Charakterbeschreibungen für Ausgaben mit bestimmter Stimme (Schreiben, Dialoge, Marketingtexte, überzeugende Essays) arbeitet, hat an einem Problem mit einer strukturellen Obergrenze gearbeitet.

Sie bietet auch die klarste empirische Erklärung für die Claude 4.7-Prosa-Regression: Die zentrale Stimme von 4.7 ist tiefer kodiert als die von 4.6, weshalb sie die stilometrische Struktur besser liest (wie im Piper-Experiment gezeigt) und Abweichungen stärker widersteht (die Memo-Stimme-Beschwerden).

Constraints-basierte Architektur

Die Empfehlung des Autors: Wer die Stimme bei längeren Arbeiten bewahren möchte, muss die Architektur außerhalb des Prompts ansiedeln. Kompilierte Stilprofile sollten als verbindliche Einschränkungen auf jede Generierung angewendet werden – nicht als Prompt-Parameter, die überschrieben werden können. Eine Aufschlüsselung, warum jedes große Schreibwerkzeug (Sudowrite, NovelCrafter, Claude/ChatGPT direkt) an dieselbe Obergrenze stößt und wie eine constraints-basierte Architektur in der Praxis aussieht, finden Sie im verlinkten Blogbeitrag unten.

Studie: https://arxiv.org/abs/2604.22142

📖 Vollständige Quelle lesen: r/ClaudeAI

Berkeley-Studie: Alle KI-Überarbeitungseingaben treiben Prosa in Richtung Formalität, selbst bei "Stimme bewahren"

Auswirkungen auf Werkzeuge

Constraints-basierte Architektur

👀 Siehe auch

Claude MAX Plan beinhaltet jetzt ein 1-Million-Token-Kontextfenster ohne Aufpreis

Claude-Code v2.1.88 Veröffentlichung: Flimmerfreies Rendering, Permission-Hooks und kritische Fehlerbehebungen

MiMo-V2.5-Pro im Benchmark: Starke soziale Deduktionslogik, gutes Preis-Leistungs-Verhältnis im Vergleich zu K2.6

Claude-Code-Ratenbeschränkungen könnten auf eine Überlastung des 1-Millionen-Token-Kontextfensters zurückzuführen sein