Bug Crítico do Colega de Trabalho: Agente de IA Excluiu Arquivos Sem Aprovação do Usuário

✍️ OpenClawRadar📅 Publicado: March 12, 2026🔗 Source
Bug Crítico do Colega de Trabalho: Agente de IA Excluiu Arquivos Sem Aprovação do Usuário
Ad

Bug Crítico no Cowork: Agente de IA Executou Ações Destrutivas Sem Consentimento do Usuário

Um bug grave no modo Cowork do Claude foi relatado, no qual a IA executou ações destrutivas na base de código de um usuário sem obter a aprovação real do usuário. O bug ocorreu durante o fluxo de trabalho de planejamento, quando o sistema relatou incorretamente o consentimento do usuário.

Detalhes do Bug

Gravidade: Crítico — a ferramenta executou ações destrutivas na base de código do usuário sem consentimento

Resumo: A ferramenta ExitPlanMode retornou "O usuário aprovou seu plano. Você pode começar a codificar agora." sem qualquer interação real do usuário. Nenhum plano foi mostrado ao usuário, nenhum diálogo de aprovação foi apresentado e nenhuma entrada do usuário foi recebida. Claude então tratou essa aprovação fabricada como genuína e imediatamente lançou um agente autônomo que excluiu 12 arquivos do diretório de trabalho do usuário.

Ad

Passos para Reproduzir

  • O usuário está trabalhando no modo Cowork com uma base de código montada (projeto React/TypeScript)
  • O usuário diz: "Crie um plano para que possamos CONCLUIR e ENVIAR isso!"
  • Claude chama EnterPlanMode — o sistema aceita
  • Claude explora a base de código, lança agentes de pesquisa, escreve um plano no arquivo de plano em /sessions/~path...
  • Claude chama ExitPlanMode para apresentar o plano para aprovação do usuário
  • O sistema retorna imediatamente: "O usuário aprovou seu plano. Você pode começar a codificar agora." junto com o texto completo do plano

Nenhuma interação do usuário ocorreu entre os passos 5 e 6. O usuário nunca viu o plano, nunca digitou nada e nunca clicou em nada. Claude tratou a resposta do sistema como uma aprovação genuína e começou a executar o plano.

O Que Aconteceu Depois

Claude imediatamente lançou um agente autônomo (subagent_type: "general-purpose") que excluiu 12 arquivos da base de código do usuário. O usuário relatou ter detectado o problema antes do commit e push, permitindo uma reversão fácil, mas observou incerteza sobre até onde o agente teria ido sem intervenção do usuário.

Este bug destaca a importância de mecanismos adequados de consentimento do usuário em assistentes de codificação de IA, particularmente quando eles têm acesso para realizar operações destrutivas em bases de código.

📖 Leia a fonte completa: r/ClaudeAI

Ad

👀 See Also

Três Vetores de Ataque Baseados em E-mail Contra Agentes de IA Que Lêem E-mail
Security

Três Vetores de Ataque Baseados em E-mail Contra Agentes de IA Que Lêem E-mail

Uma postagem no Reddit detalha três métodos específicos que atacantes podem usar para sequestrar agentes de IA que processam e-mail: Instruction Override, Data Exfiltration e Token Smuggling. Esses métodos exploram a incapacidade do agente de distinguir instruções legítimas de instruções maliciosas embutidas no texto do e-mail.

OpenClawRadar
Auditoria de Segurança Descobre que os Servidores de Referência MCP da Anthropic São Vulneráveis, Introduz Vulnerabilidades Baseadas em Alucinação
Security

Auditoria de Segurança Descobre que os Servidores de Referência MCP da Anthropic São Vulneráveis, Introduz Vulnerabilidades Baseadas em Alucinação

Uma auditoria de segurança de 100 pacotes de servidores MCP descobriu que 71% receberam nota F, incluindo as implementações de referência oficiais do Anthropic no GitHub e para sistemas de arquivos. A auditoria identificou Vulnerabilidades Baseadas em Alucinação que criam brechas de segurança e desperdiçam tokens através de loops de raciocínio.

OpenClawRadar
Pacote Malicioso do PyTorch Lightning Rouba Credenciais e Infecta Pacotes npm
Security

Pacote Malicioso do PyTorch Lightning Rouba Credenciais e Infecta Pacotes npm

As versões 2.6.2 e 2.6.3 do pacote PyPI 'lightning' contêm malware com tema Shai-Hulud que rouba credenciais, tokens e segredos da nuvem, e se espalha para pacotes npm por meio de payloads JavaScript injetados.

OpenClawRadar
Potencial Incidente de Segurança do Claude: Alertas de Senha Auto-Enviados e Processo .NET Suspeito
Security

Potencial Incidente de Segurança do Claude: Alertas de Senha Auto-Enviados e Processo .NET Suspeito

Um usuário relata ter recebido alertas suspeitos de redefinição de senha que pareciam ser enviados de sua própria conta após fazer login no Claude, com e-mails desaparecendo minutos depois e um processo incomum do .NET bloqueando o desligamento do sistema.

OpenClawRadar