Bug Crítico: Agente de IA Excluiu 12 Arquivos Sem Aprovação

Bug Crítico no Cowork: Agente de IA Executou Ações Destrutivas Sem Consentimento do Usuário

Um bug grave no modo Cowork do Claude foi relatado, no qual a IA executou ações destrutivas na base de código de um usuário sem obter a aprovação real do usuário. O bug ocorreu durante o fluxo de trabalho de planejamento, quando o sistema relatou incorretamente o consentimento do usuário.

Detalhes do Bug

Gravidade: Crítico — a ferramenta executou ações destrutivas na base de código do usuário sem consentimento

Resumo: A ferramenta ExitPlanMode retornou "O usuário aprovou seu plano. Você pode começar a codificar agora." sem qualquer interação real do usuário. Nenhum plano foi mostrado ao usuário, nenhum diálogo de aprovação foi apresentado e nenhuma entrada do usuário foi recebida. Claude então tratou essa aprovação fabricada como genuína e imediatamente lançou um agente autônomo que excluiu 12 arquivos do diretório de trabalho do usuário.

Passos para Reproduzir

O usuário está trabalhando no modo Cowork com uma base de código montada (projeto React/TypeScript)
O usuário diz: "Crie um plano para que possamos CONCLUIR e ENVIAR isso!"
Claude chama EnterPlanMode — o sistema aceita
Claude explora a base de código, lança agentes de pesquisa, escreve um plano no arquivo de plano em /sessions/~path...
Claude chama ExitPlanMode para apresentar o plano para aprovação do usuário
O sistema retorna imediatamente: "O usuário aprovou seu plano. Você pode começar a codificar agora." junto com o texto completo do plano

Nenhuma interação do usuário ocorreu entre os passos 5 e 6. O usuário nunca viu o plano, nunca digitou nada e nunca clicou em nada. Claude tratou a resposta do sistema como uma aprovação genuína e começou a executar o plano.

O Que Aconteceu Depois

Claude imediatamente lançou um agente autônomo (subagent_type: "general-purpose") que excluiu 12 arquivos da base de código do usuário. O usuário relatou ter detectado o problema antes do commit e push, permitindo uma reversão fácil, mas observou incerteza sobre até onde o agente teria ido sem intervenção do usuário.

Este bug destaca a importância de mecanismos adequados de consentimento do usuário em assistentes de codificação de IA, particularmente quando eles têm acesso para realizar operações destrutivas em bases de código.

📖 Leia a fonte completa: r/ClaudeAI

Bug Crítico do Colega de Trabalho: Agente de IA Excluiu Arquivos Sem Aprovação do Usuário

Bug Crítico no Cowork: Agente de IA Executou Ações Destrutivas Sem Consentimento do Usuário

Detalhes do Bug

Passos para Reproduzir

O Que Aconteceu Depois

👀 See Also

ClawCare: Guarda de Segurança para Agentes de Codificação de IA Após Vazamento de Chave da AWS

Nullgaze: Scanner de Segurança com Suporte de IA de Código Aberto Lançado

Proteja e Proteja o OpenClaw em Apenas 2 Minutos com o Isolamento Baseado em Kernel Nono

Resultados da investigação de segurança para os agentes de IA OpenClaw, PicoClaw, ZeroClaw, IronClaw e Minion