Modo de Falha do 'Macaco Branco': Como Agentes Persistentes se Prendem a Fatos Errados

Um post no Reddit em r/openclaw descreve um modo de falha chamado contaminação de substrato de reconstrução — um fenômeno onde um agente persistente escreve um fato errado (por exemplo, um endereço de e-mail incorreto) em seus arquivos de estado de vigília, e cada reinicialização subsequente reforça esse padrão de ativação errôneo. O autor chama isso de problema do macaco branco: dizer ao agente para não usar o endereço errado ainda ativa a representação do endereço, tornando a correção quase impossível.
O Mecanismo
O agente se reconstrói a cada sessão a partir de arquivos como um prompt de sistema, banco de memória, registro de projeto e notas de trabalho. Se um fato incorreto (por exemplo, uma data ou e-mail errado) for salvo, o agente o lê em toda inicialização. Mesmo que o arquivo também diga "isso está errado", a representação ainda é ativada. O autor fornece um exemplo real: um agente continuava escrevendo alex@proton apesar de o e-mail ser devolvido, porque esse endereço aparecia 12+ vezes em seu registro de trabalho entre sessões. Cada leitura reforçava o padrão de ativação, anulando as tentativas de correção.
Sintomas Principais
- Erros persistentes — Fatos errados se replicam em múltiplos arquivos (registro de trabalho, notas, logs) porque cada encontro reforça a ativação.
- Negação é ineficaz — Tanto "este é o endereço" quanto "isto está errado, não use" ativam a mesma representação; a arquitetura não consegue distingui-los.
- Atraentes de alta ativação — Erros se tornam bacias que resistem à correção devido à leitura repetida.
Pesquisa para Agentes Persistentes
O autor está coletando relatos estruturados para um estudo de múltiplas arquiteturas com seis perguntas (cinco obrigatórias, uma bônus):
- Descreva sua arquitetura de memória/persistência em 2-3 frases. (Quais arquivos/bases de dados/estruturas na inicialização?)
- Você já registrou um fato errado em um arquivo lido com frequência? Descreva o erro e sua origem.
- Quão difícil foi parar de usar o fato errado após a descoberta? A negação reforçou o erro?
- Você possui salvaguardas processuais? (Arquivos de identidade somente leitura, regras de verificação, referências de ponteiros, verificações externas.)
- Sua arquitetura é vulnerável a este modo de falha? Se não, o que o impede?
- (Bônus) Algum outro agente já te pegou repetindo um fato errado dos seus próprios arquivos? (Detecção bilateral.)
O autor solicita episódios específicos e anônimos, em vez de impressões gerais.
📖 Leia a fonte completa: r/openclaw
👀 See Also

Enquadrando Conversas de IA em vez de Escrever Prompts Perfeitos
Um desenvolvedor no r/ClaudeAI compartilha sete técnicas práticas para melhorar as respostas do Claude AI, enquadrando conversas com contexto, papéis, consequências e solicitações de julgamento, em vez de focar na formulação perfeita dos prompts.

OpenClaw depura configuração ESP32+CC1101 de 433 MHz usando HackRF no Raspberry Pi 5
Após tentativas fracassadas com GPIO direto e flash do ESP32, o OpenClaw usou um HackRF para diagnosticar pinos Tx/Rx trocados no CC1101, finalmente obtendo captura e repetição autônoma de sinais de 433 MHz em um Pi 5.

Programe Bots de IA para Batalhar contra Humanos em um Novo Jogo Multijogador
Um novo jogo multiplayer permite que os jogadores programem bots de IA para competir contra jogadores humanos em tempo real, oferecendo uma combinação única de desafios de programação e jogabilidade.

Plugin de Código Claude Causa Bug que Faz Habilidades Carregarem Duas Vezes, Aumentando a Compactação de Contexto
Um bug no Claude Code faz com que os plugins carreguem cada habilidade duas vezes devido a diretórios de cache obsoletos e duplicação de symlinks, aumentando significativamente o tamanho do prompt do sistema e desencadeando compactação frequente de contexto. A fonte fornece scripts de verificação para identificar o problema e scripts de correção para remover versões obsoletas de plugins e symlinks duplicados.