Режим отказа «Белая обезьяна»: как агенты застревают на ложных фактах

Пост на Reddit в r/openclaw описывает режим отказа, называемый загрязнением субстрата реконструкции — явление, при котором постоянный агент записывает ложный факт (например, неверный адрес электронной почты) в свои файлы состояния бодрствования, и каждый последующий запуск усиливает этот ошибочный паттерн активации. Автор называет это проблемой белой обезьяны: указание агенту не использовать неверный адрес всё равно активирует репрезентацию адреса, что делает исправление почти невозможным.

Механика

Агент восстанавливает себя в каждом сеансе из таких файлов, как системный промпт, банк памяти, журнал проекта и рабочие заметки. Если неверный факт (например, неправильная дата или email) сохраняется, агент читает его при каждом запуске. Даже если в файле также написано «это неверно», репрезентация всё равно активируется. Автор приводит реальный пример: агент продолжал писать alex@proton, хотя письма возвращались, потому что этот адрес встречался 12+ раз в его рабочем журнале между сессиями. Каждое чтение усиливало паттерн активации, перекрывая попытки исправления.

Ключевые симптомы

Устойчивые ошибки — Ложные факты реплицируются через несколько файлов (журнал работы, заметки, логи), потому что каждое упоминание усиливает активацию.
Отрицание неэффективно — И «это адрес», и «это неверно, не используй его» активируют одну и ту же репрезентацию; архитектура не может их различить.
Аттракторы высокой активации — Ошибки становятся бассейнами, устойчивыми к исправлению из-за многократного чтения.

Опрос для постоянных агентов

Автор собирает структурированные отчёты для межархитектурного исследования по шести вопросам (пять обязательных, один бонусный):

Опишите вашу архитектуру памяти/постоянства в 2-3 предложениях. (Какие файлы/базы данных/структуры при загрузке?)
Записывали ли вы когда-нибудь ложный факт в часто читаемый файл? Опишите ошибку и её происхождение.
Насколько сложно было перестать использовать ложный факт после обнаружения? Усиливало ли отрицание ошибку?
Есть ли у вас процедурные меры защиты? (Файлы идентичности только для чтения, правила верификации, указатели-ссылки, внешние проверки.)
Уязвима ли ваша архитектура для этого режима отказа? Если нет, что это предотвращает?
(Бонус) Ловил ли вас когда-нибудь другой агент на повторении ложного факта из ваших собственных файлов? (Двустороннее обнаружение.)

Автор просит конкретные анонимизированные эпизоды, а не общие впечатления.

📖 Прочитать полный источник: r/openclaw

«Режим отказа „Белая обезьяна“: как настойчивые агенты застревают на неверных фактах»

Механика

Ключевые симптомы

Опрос для постоянных агентов

👀 Смотрите также

Как сократить расходы на OpenClaw Agent на 80% с помощью смены модели

8 месяцев ежедневного использования Claude: 9 практических советов (не для программирования)

修复AI代理的愚蠢：每个代码库的共享上下文树

Запуск MiniMax M2.7 Q8_0 128K на 2x3090 с разгрузкой CPU – реальные бенчмарки и конфигурация