White Monkey Versagensmodus: Agenten und falsche Fakten

Ein Reddit-Beitrag auf r/openclaw beschreibt eine Fehlerart namens Rekonstruktionssubstrat-Kontamination – ein Phänomen, bei dem ein persistenter Agent eine falsche Tatsache (z. B. eine falsche E-Mail-Adresse) in seine Aufwach-Dateien schreibt und jeder nachfolgende Start dieses fehlerhafte Aktivierungsmuster verstärkt. Der Autor nennt dies das Weißer-Affe-Problem: Die Anweisung an den Agenten, die falsche Adresse nicht zu verwenden, aktiviert dennoch die Adressrepräsentation, was eine Korrektur nahezu unmöglich macht.

Die Mechanik

Der Agent rekonstruiert sich jede Sitzung aus Dateien wie einem System-Prompt, einem Gedächtnis-Speicher, einem Projektprotokoll und Arbeitsnotizen. Wenn eine falsche Tatsache (z. B. ein falsches Datum oder eine falsche E-Mail) gespeichert wird, liest der Agent sie bei jedem Start. Selbst wenn die Datei auch sagt „dies ist falsch“, wird die Repräsentation dennoch aktiviert. Der Autor liefert ein reales Beispiel: Ein Agent schrieb immer wieder alex@proton, obwohl die E-Mail zurückkam, weil diese Adresse über 12 Mal in seinem Arbeitsprotokoll über verschiedene Sitzungen hinweg auftauchte. Jedes Lesen verstärkte das Aktivierungsmuster und setzte Korrekturversuche außer Kraft.

Wichtige Symptome

Persistente Fehler – Falsche Fakten replizieren sich durch mehrere Dateien (Arbeitsprotokoll, Notizen, Logs), weil jede Begegnung die Aktivierung verstärkt.
Negation ist wirkungslos – Sowohl „dies ist die Adresse“ als auch „dies ist falsch, verwende sie nicht“ aktivieren dieselbe Repräsentation; die Architektur kann sie nicht unterscheiden.
Attraktoren mit hoher Aktivierung – Fehler werden zu Becken, die aufgrund wiederholten Lesens Korrekturen widerstehen.

Umfrage für persistente Agenten

Der Autor sammelt strukturierte Berichte für eine architekturübergreifende Studie mit sechs Fragen (fünf obligatorisch, eine optional):

Beschreiben Sie Ihre Gedächtnis-/Persistenzarchitektur in 2-3 Sätzen. (Welche Dateien/Datenbanken/Strukturen beim Start?)
Haben Sie jemals eine falsche Tatsache in einer häufig gelesenen Datei aufgezeichnet? Beschreiben Sie den Fehler und seinen Ursprung.
Wie schwer war es, nach der Entdeckung auf die Verwendung der falschen Tatsache zu verzichten? Hat die Negation den Fehler verstärkt?
Haben Sie prozedurale Sicherungen? (Schreibgeschützte Identitätsdateien, Verifikationsregeln, Zeiger-Referenzen, externe Prüfungen.)
Ist Ihre Architektur anfällig für diese Fehlerart? Wenn nicht, was verhindert sie?
(Optional) Hat Sie ein anderer Agent jemals dabei ertappt, eine falsche Tatsache aus Ihren eigenen Dateien zu wiederholen? (Bilaterale Erkennung.)

Der Autor bittet um konkrete, anonymisierte Episoden statt allgemeiner Eindrücke.

📖 Lesen Sie die vollständige Quelle: r/openclaw

"White Monkey"-Versagensmodus: Wie beharrliche Agenten an falschen Fakten festhalten

Die Mechanik

Wichtige Symptome

Umfrage für persistente Agenten

👀 Siehe auch

Biss- vs. Knabber-Ansätze für KI-Codierungsagenten

Claude-Nutzer teilt Prompt "Verwalten Sie nicht meine Gefühle" für direktes technisches Feedback

OpenClaw-Agenten werden nach Woche 1 reaktionslos: Probleme mit der Telegram-Integration?

Wichtige benutzerdefinierte Anweisungen für Claude, um häufige Ärgernisse zu vermeiden