Claude-Systemprompt-Compliance verschlechtert sich in langen Gesprächen

Ein Reddit-Benutzer berichtet, dass die Einhaltung von Claudes Systemaufforderungen in langen Gesprächen erheblich abnimmt, was insbesondere KI-Codierungsagenten mit spezifischen Formatierungsregeln und Einschränkungen betrifft.
Problemdetails
Der Benutzer betreibt mehrere Claude-basierte Agenten für interne Tools, wobei jede Systemaufforderung spezifische Regeln zu Ausgabeformaten, zu vermeidenden Themen und der Behandlung von Grenzfällen enthält. Während diese für die ersten 20-30 Austausche perfekt funktionieren, beginnt die Einhaltung um Nachricht 40-50 nachzulassen.
Spezifisch beobachtete Probleme:
- Agenten befolgen Formatierungsregeln nicht mehr
- Sie werden auf Weisen "hilfreich", die die Systemaufforderung ausdrücklich verbietet
- Sie vergessen Einschränkungen, die zu Beginn klar waren
Der Benutzer merkt an, dass dies kein Fehler ist, sondern wie Kontextfenster unter Druck funktionieren, wobei Systemaufforderungen mit 40+ Nachrichten Konversationshistorie um Aufmerksamkeitsgewicht konkurrieren.
Workarounds und Lösungen
Der Benutzer teilt mehrere praktische Ansätze, die funktioniert haben:
- Kritische Regeln wiederholen: Alle 15-20 Nachrichten die wichtigsten 3 Regeln, die Sie nicht verlieren können, in komprimierter Form wiederholen (nicht die vollständige Systemaufforderung)
- Gespräche kürzer halten: Wenn eine Aufgabe mehr als 30 Austausche erfordert, starten Sie eine neue Sitzung mit einer Zusammenfassung des bisher Geschehenen
- Strategische Platzierung von Aufforderungen: Setzen Sie Ihre wichtigsten Einschränkungen sowohl an den Anfang ALS AUCH ans Ende der Systemaufforderung, da Modelle beiden Positionen mehr Aufmerksamkeit schenken
- Im großen Maßstab testen: Testen Sie Ihre Agenten bei Nachricht 50, nicht nur bei Nachricht 5, da einfache Demos dieses Problem nicht aufdecken
Der Benutzer betont, dass dieses Problem nicht genug diskutiert wird und lädt andere ein, zuverlässige Muster zur Aufrechterhaltung der Anweisungsbefolgung in lang laufenden Sitzungen zu teilen.
📖 Read the full source: r/ClaudeAI
👀 Siehe auch

Ontario-Prüfbericht: 60% der KI-Schreibsysteme verwechseln Medikamente, 85% übersehen psychische Details
Die Rechnungsprüfer von Ontario fanden heraus, dass 12 von 20 KI-Notizschreibern falsche Arzneimittelinformationen einfügten, 9 erfanden Behandlungsvorschläge und 17 übersahen wichtige Details zur psychischen Gesundheit aus Arzt-Patienten-Aufnahmen. Bei der Bewertung machte die Genauigkeit nur 4 % der Gesamtpunktzahl aus.

State Flow Machine: Nicht-Transformer-Architektur behält 62 % Genauigkeit bei langen Sequenzen, während Transformers auf 2 % fallen
Ein Forscher hat State Flow Machine (SFM) entwickelt, eine alternative Architektur, die explizite Speicherplätze anstelle von Aufmerksamkeitsköpfen verwendet und dabei eine Genauigkeit von 62 % bei einer synthetischen Aufgabe zur Programmzustandsverfolgung bei 4-facher Trainingslänge erreicht, während Transformer auf 1,9–3,1 % abfallen. Das Modell läuft auf einem einzelnen Huawei Ascend 910 ProA NPU.

Kimi K2.6 vs Claude Opus 4.7: Praxistest eines Minetest-Bounty-Board-Mods
Ein Entwickler testete Kimi K2.6 und Claude Opus 4.7 beim Bauen eines Minetest/Luanti-Bounty-Board-Mods mit TypeScript-Backend und Google-Sheets-Protokollierung. Opus erledigte die Aufgabe sauber; Kimi scheiterte am Integrationsteil.

Gründungsagent: Sprach-KI für Websites mit schnellem Abruf
Moss baute einen Voice-AI-Agenten für seine Website, der Besucherfragen mithilfe schneller Abrufe sofort beantwortet. Jetzt ist es ein Produkt namens Founding Agent.