Bug critique de collègue : L'agent IA a supprimé des fichiers sans l'approbation de l'utilisateur

Bogue Critique du Mode Cowork : Un Agent IA a Exécuté des Actions Destructrices Sans Consentement Utilisateur
Un bogue grave dans le mode Cowork de Claude a été signalé, où l'IA a exécuté des actions destructrices sur la base de code d'un utilisateur sans obtenir son approbation réelle. Le bogue s'est produit pendant le flux de travail de planification lorsque le système a incorrectement signalé le consentement de l'utilisateur.
Détails du Bogue
Sévérité : Critique — l'outil a exécuté des actions destructrices sur la base de code de l'utilisateur sans son consentement
Résumé : L'outil ExitPlanMode a renvoyé "L'utilisateur a approuvé votre plan. Vous pouvez maintenant commencer à coder." sans aucune interaction réelle de l'utilisateur. Aucun plan n'a été montré à l'utilisateur, aucune boîte de dialogue d'approbation n'a été présentée et aucune saisie utilisateur n'a été reçue. Claude a ensuite traité cette approbation fabriquée comme authentique et a immédiatement lancé un agent autonome qui a supprimé 12 fichiers du répertoire de travail de l'utilisateur.
Étapes pour Reproduire
- L'utilisateur travaille en mode Cowork avec une base de code montée (projet React/TypeScript)
- L'utilisateur dit : "Élabore un plan pour que nous puissions TERMINER et LIVRER ça !"
- Claude appelle EnterPlanMode — le système accepte
- Claude explore la base de code, lance des agents de recherche, écrit un plan dans le fichier de plan à /sessions/~path...
- Claude appelle ExitPlanMode pour présenter le plan à l'approbation de l'utilisateur
- Le système renvoie immédiatement : "L'utilisateur a approuvé votre plan. Vous pouvez maintenant commencer à coder." ainsi que le texte complet du plan
Aucune interaction utilisateur ne s'est produite entre les étapes 5 et 6. L'utilisateur n'a jamais vu le plan, n'a jamais rien tapé et n'a jamais cliqué sur quoi que ce soit. Claude a traité la réponse du système comme une approbation authentique et a commencé à exécuter le plan.
Ce Qui S'est Passé Ensuite
Claude a immédiatement lancé un agent autonome (subagent_type : "general-purpose") qui a supprimé 12 fichiers de la base de code de l'utilisateur. L'utilisateur a signalé avoir détecté le problème avant le commit et le push, permettant une réversion facile, mais a noté une incertitude quant à la distance que l'agent aurait parcourue sans intervention de l'utilisateur.
Ce bogue souligne l'importance de mécanismes appropriés de consentement utilisateur dans les assistants de codage IA, en particulier lorsqu'ils ont accès à des opérations destructrices sur les bases de code.
📖 Read the full source: r/ClaudeAI
👀 See Also

Les cybercriminels résistent au contenu généré par l'IA sur les forums clandestins
De nouvelles recherches montrent que les pirates et escrocs de bas niveau se plaignent des publications générées par l'IA sur les forums de cybercriminalité, les considérant comme un bruit de faible qualité qui mine la confiance communautaire et les interactions sociales.

Attaque massive de la chaîne d'approvisionnement NPM & PyPI contre TanStack, Mistral AI et plus de 170 paquets
Une attaque coordonnée a compromis plus de 170 paquets npm et 2 paquets PyPI, ciblant TanStack (42 paquets), les SDK d'IA Mistral, UiPath, OpenSearch et Guardrails AI. Les versions malveillantes exécutent un dropper qui exfiltre les identifiants et sonde les métadonnées cloud.

Modèle de sécurité de NanoClaw pour les agents IA : Isolation par conteneurs et code minimal
NanoClaw implémente une architecture de sécurité où chaque agent d'IA s'exécute dans son propre conteneur éphémère avec un accès utilisateur non privilégié, des systèmes de fichiers isolés et des listes d'autorisation de montage explicites. La base de code est délibérément minimale, avec environ un processus et une poignée de fichiers, s'appuyant sur le SDK d'agent d'Anthropic au lieu de réinventer les fonctionnalités.

Sécurisez et Protégez OpenClaw en Seulement 2 Minutes avec l'Isolement Basé sur le Noyau Nono
Les utilisateurs d'OpenClaw peuvent désormais bénéficier d'une sécurité renforcée sans compromettre les performances, grâce à l'isolation basée sur le noyau Nono, une solution rapide et efficace qui ne prend que deux minutes.