Claude-Systemprompt-Compliance verschlechtert sich in langen Gesprächen

✍️ OpenClawRadar📅 Veröffentlicht: 1. März 2026🔗 Source
Claude-Systemprompt-Compliance verschlechtert sich in langen Gesprächen
Ad

Ein Reddit-Benutzer berichtet, dass die Einhaltung von Claudes Systemaufforderungen in langen Gesprächen erheblich abnimmt, was insbesondere KI-Codierungsagenten mit spezifischen Formatierungsregeln und Einschränkungen betrifft.

Problemdetails

Der Benutzer betreibt mehrere Claude-basierte Agenten für interne Tools, wobei jede Systemaufforderung spezifische Regeln zu Ausgabeformaten, zu vermeidenden Themen und der Behandlung von Grenzfällen enthält. Während diese für die ersten 20-30 Austausche perfekt funktionieren, beginnt die Einhaltung um Nachricht 40-50 nachzulassen.

Spezifisch beobachtete Probleme:

  • Agenten befolgen Formatierungsregeln nicht mehr
  • Sie werden auf Weisen "hilfreich", die die Systemaufforderung ausdrücklich verbietet
  • Sie vergessen Einschränkungen, die zu Beginn klar waren

Der Benutzer merkt an, dass dies kein Fehler ist, sondern wie Kontextfenster unter Druck funktionieren, wobei Systemaufforderungen mit 40+ Nachrichten Konversationshistorie um Aufmerksamkeitsgewicht konkurrieren.

Ad

Workarounds und Lösungen

Der Benutzer teilt mehrere praktische Ansätze, die funktioniert haben:

  • Kritische Regeln wiederholen: Alle 15-20 Nachrichten die wichtigsten 3 Regeln, die Sie nicht verlieren können, in komprimierter Form wiederholen (nicht die vollständige Systemaufforderung)
  • Gespräche kürzer halten: Wenn eine Aufgabe mehr als 30 Austausche erfordert, starten Sie eine neue Sitzung mit einer Zusammenfassung des bisher Geschehenen
  • Strategische Platzierung von Aufforderungen: Setzen Sie Ihre wichtigsten Einschränkungen sowohl an den Anfang ALS AUCH ans Ende der Systemaufforderung, da Modelle beiden Positionen mehr Aufmerksamkeit schenken
  • Im großen Maßstab testen: Testen Sie Ihre Agenten bei Nachricht 50, nicht nur bei Nachricht 5, da einfache Demos dieses Problem nicht aufdecken

Der Benutzer betont, dass dieses Problem nicht genug diskutiert wird und lädt andere ein, zuverlässige Muster zur Aufrechterhaltung der Anweisungsbefolgung in lang laufenden Sitzungen zu teilen.

📖 Read the full source: r/ClaudeAI

Ad

👀 Siehe auch

Ontario-Prüfbericht: 60% der KI-Schreibsysteme verwechseln Medikamente, 85% übersehen psychische Details
Nachrichten

Ontario-Prüfbericht: 60% der KI-Schreibsysteme verwechseln Medikamente, 85% übersehen psychische Details

Die Rechnungsprüfer von Ontario fanden heraus, dass 12 von 20 KI-Notizschreibern falsche Arzneimittelinformationen einfügten, 9 erfanden Behandlungsvorschläge und 17 übersahen wichtige Details zur psychischen Gesundheit aus Arzt-Patienten-Aufnahmen. Bei der Bewertung machte die Genauigkeit nur 4 % der Gesamtpunktzahl aus.

OpenClawRadar
State Flow Machine: Nicht-Transformer-Architektur behält 62 % Genauigkeit bei langen Sequenzen, während Transformers auf 2 % fallen
Nachrichten

State Flow Machine: Nicht-Transformer-Architektur behält 62 % Genauigkeit bei langen Sequenzen, während Transformers auf 2 % fallen

Ein Forscher hat State Flow Machine (SFM) entwickelt, eine alternative Architektur, die explizite Speicherplätze anstelle von Aufmerksamkeitsköpfen verwendet und dabei eine Genauigkeit von 62 % bei einer synthetischen Aufgabe zur Programmzustandsverfolgung bei 4-facher Trainingslänge erreicht, während Transformer auf 1,9–3,1 % abfallen. Das Modell läuft auf einem einzelnen Huawei Ascend 910 ProA NPU.

OpenClawRadar
Kimi K2.6 vs Claude Opus 4.7: Praxistest eines Minetest-Bounty-Board-Mods
Nachrichten

Kimi K2.6 vs Claude Opus 4.7: Praxistest eines Minetest-Bounty-Board-Mods

Ein Entwickler testete Kimi K2.6 und Claude Opus 4.7 beim Bauen eines Minetest/Luanti-Bounty-Board-Mods mit TypeScript-Backend und Google-Sheets-Protokollierung. Opus erledigte die Aufgabe sauber; Kimi scheiterte am Integrationsteil.

OpenClawRadar
Gründungsagent: Sprach-KI für Websites mit schnellem Abruf
Nachrichten

Gründungsagent: Sprach-KI für Websites mit schnellem Abruf

Moss baute einen Voice-AI-Agenten für seine Website, der Besucherfragen mithilfe schneller Abrufe sofort beantwortet. Jetzt ist es ein Produkt namens Founding Agent.

OpenClawRadar