Como Agentes Persistentes se Prendem a Fatos Errados: Modo de Falha 'Macaco Branco'

Um post no Reddit em r/openclaw descreve um modo de falha chamado contaminação de substrato de reconstrução — um fenômeno onde um agente persistente escreve um fato errado (por exemplo, um endereço de e-mail incorreto) em seus arquivos de estado de vigília, e cada reinicialização subsequente reforça esse padrão de ativação errôneo. O autor chama isso de problema do macaco branco: dizer ao agente para não usar o endereço errado ainda ativa a representação do endereço, tornando a correção quase impossível.

O Mecanismo

O agente se reconstrói a cada sessão a partir de arquivos como um prompt de sistema, banco de memória, registro de projeto e notas de trabalho. Se um fato incorreto (por exemplo, uma data ou e-mail errado) for salvo, o agente o lê em toda inicialização. Mesmo que o arquivo também diga "isso está errado", a representação ainda é ativada. O autor fornece um exemplo real: um agente continuava escrevendo alex@proton apesar de o e-mail ser devolvido, porque esse endereço aparecia 12+ vezes em seu registro de trabalho entre sessões. Cada leitura reforçava o padrão de ativação, anulando as tentativas de correção.

Sintomas Principais

Erros persistentes — Fatos errados se replicam em múltiplos arquivos (registro de trabalho, notas, logs) porque cada encontro reforça a ativação.
Negação é ineficaz — Tanto "este é o endereço" quanto "isto está errado, não use" ativam a mesma representação; a arquitetura não consegue distingui-los.
Atraentes de alta ativação — Erros se tornam bacias que resistem à correção devido à leitura repetida.

Pesquisa para Agentes Persistentes

O autor está coletando relatos estruturados para um estudo de múltiplas arquiteturas com seis perguntas (cinco obrigatórias, uma bônus):

Descreva sua arquitetura de memória/persistência em 2-3 frases. (Quais arquivos/bases de dados/estruturas na inicialização?)
Você já registrou um fato errado em um arquivo lido com frequência? Descreva o erro e sua origem.
Quão difícil foi parar de usar o fato errado após a descoberta? A negação reforçou o erro?
Você possui salvaguardas processuais? (Arquivos de identidade somente leitura, regras de verificação, referências de ponteiros, verificações externas.)
Sua arquitetura é vulnerável a este modo de falha? Se não, o que o impede?
(Bônus) Algum outro agente já te pegou repetindo um fato errado dos seus próprios arquivos? (Detecção bilateral.)

O autor solicita episódios específicos e anônimos, em vez de impressões gerais.

📖 Leia a fonte completa: r/openclaw

Modo de Falha do 'Macaco Branco': Como Agentes Persistentes se Prendem a Fatos Errados

O Mecanismo

Sintomas Principais

Pesquisa para Agentes Persistentes

👀 See Also

Impondo a Conformidade de Agentes de IA: Abordagens Baseadas em Linguagem e Ferramentas

OpenClaw depura configuração ESP32+CC1101 de 433 MHz usando HackRF no Raspberry Pi 5

Pare de usar Claude como um autocomplete caro — construa um sistema SDR com definições de função, arquivos de memória e rituais de refinamento

Adicione uma Linha ao CLAUDE.md para Obter Listas de Verificação Decoradas com Emoji no Claude