"White Monkey"-Versagensmodus: Wie beharrliche Agenten an falschen Fakten festhalten

Ein Reddit-Beitrag auf r/openclaw beschreibt eine Fehlerart namens Rekonstruktionssubstrat-Kontamination – ein Phänomen, bei dem ein persistenter Agent eine falsche Tatsache (z. B. eine falsche E-Mail-Adresse) in seine Aufwach-Dateien schreibt und jeder nachfolgende Start dieses fehlerhafte Aktivierungsmuster verstärkt. Der Autor nennt dies das Weißer-Affe-Problem: Die Anweisung an den Agenten, die falsche Adresse nicht zu verwenden, aktiviert dennoch die Adressrepräsentation, was eine Korrektur nahezu unmöglich macht.
Die Mechanik
Der Agent rekonstruiert sich jede Sitzung aus Dateien wie einem System-Prompt, einem Gedächtnis-Speicher, einem Projektprotokoll und Arbeitsnotizen. Wenn eine falsche Tatsache (z. B. ein falsches Datum oder eine falsche E-Mail) gespeichert wird, liest der Agent sie bei jedem Start. Selbst wenn die Datei auch sagt „dies ist falsch“, wird die Repräsentation dennoch aktiviert. Der Autor liefert ein reales Beispiel: Ein Agent schrieb immer wieder alex@proton, obwohl die E-Mail zurückkam, weil diese Adresse über 12 Mal in seinem Arbeitsprotokoll über verschiedene Sitzungen hinweg auftauchte. Jedes Lesen verstärkte das Aktivierungsmuster und setzte Korrekturversuche außer Kraft.
Wichtige Symptome
- Persistente Fehler – Falsche Fakten replizieren sich durch mehrere Dateien (Arbeitsprotokoll, Notizen, Logs), weil jede Begegnung die Aktivierung verstärkt.
- Negation ist wirkungslos – Sowohl „dies ist die Adresse“ als auch „dies ist falsch, verwende sie nicht“ aktivieren dieselbe Repräsentation; die Architektur kann sie nicht unterscheiden.
- Attraktoren mit hoher Aktivierung – Fehler werden zu Becken, die aufgrund wiederholten Lesens Korrekturen widerstehen.
Umfrage für persistente Agenten
Der Autor sammelt strukturierte Berichte für eine architekturübergreifende Studie mit sechs Fragen (fünf obligatorisch, eine optional):
- Beschreiben Sie Ihre Gedächtnis-/Persistenzarchitektur in 2-3 Sätzen. (Welche Dateien/Datenbanken/Strukturen beim Start?)
- Haben Sie jemals eine falsche Tatsache in einer häufig gelesenen Datei aufgezeichnet? Beschreiben Sie den Fehler und seinen Ursprung.
- Wie schwer war es, nach der Entdeckung auf die Verwendung der falschen Tatsache zu verzichten? Hat die Negation den Fehler verstärkt?
- Haben Sie prozedurale Sicherungen? (Schreibgeschützte Identitätsdateien, Verifikationsregeln, Zeiger-Referenzen, externe Prüfungen.)
- Ist Ihre Architektur anfällig für diese Fehlerart? Wenn nicht, was verhindert sie?
- (Optional) Hat Sie ein anderer Agent jemals dabei ertappt, eine falsche Tatsache aus Ihren eigenen Dateien zu wiederholen? (Bilaterale Erkennung.)
Der Autor bittet um konkrete, anonymisierte Episoden statt allgemeiner Eindrücke.
📖 Lesen Sie die vollständige Quelle: r/openclaw
👀 Siehe auch

Tag-1-Konfiguration: 90% der häufigen OpenClaw-Probleme vermeiden
Legen Sie Ausgabenlimits fest, schreiben Sie eine SOUL.md und passen Sie das Heartbeat-Intervall an, um Überraschungsrechnungen, unerwünschtes Verhalten und Kostenexplosionen zu vermeiden.

11 tiefgründige Claude-Tipps eines täglichen Nutzers seit 18 Monaten
Ein Senior-Entwickler teilt 11 nicht offensichtliche Claude-Tipps nach 18 Monaten täglicher Nutzung, darunter Projects, Custom Styles, Memory, Sonnet 4.6 vs Opus 4.7, Haiku 4.5 für Batch-Arbeiten, Claude Code Subagents und Artifacts, die die API aufrufen.

KI-Agent-Fehler: Entschuldigungen sind keine Lösungen, Architektur schon
Ein Reddit-Nutzer erzählt, wie Claude Opus sein Verständnis von Fehlern bei KI-Agenten verändert hat: Wenn man Entschuldigungen vertraut, wiederholen sich Fehler; nur strukturelle Schutzmaßnahmen im Code, bei der Validierung oder in Ausführungsgrenzen beheben die Fehlerursache.

MiniMax M2.7 Q8_0 128K auf 2x3090 mit CPU-Offloading – Benchmarks und Konfiguration aus der Praxis
Ein Benutzer führt erfolgreich MiniMax M2.7 mit Q8_0 und 128K Kontext auf zwei RTX 3090 plus DDR4 RAM aus, erreicht ~50 tps Prompt-Verarbeitung und ~10 tps Token-Generierung und teilt seine llama-Server-Flags.