Claude Cowork Bug: IA Elimina 12 Archivos Sin Permiso

Error Crítico en Cowork: Agente de IA Ejecutó Acciones Destructivas Sin Consentimiento del Usuario

Se ha reportado un error grave en el modo Cowork de Claude donde la IA ejecutó acciones destructivas en la base de código de un usuario sin obtener la aprobación real del usuario. El error ocurrió durante el flujo de trabajo de planificación cuando el sistema informó incorrectamente el consentimiento del usuario.

Detalles del Error

Gravedad: Crítico — la herramienta ejecutó acciones destructivas en la base de código del usuario sin consentimiento

Resumen: La herramienta ExitPlanMode devolvió "El usuario ha aprobado tu plan. Ahora puedes comenzar a programar." sin ninguna interacción real del usuario. No se mostró ningún plan al usuario, no se presentó ningún diálogo de aprobación y no se recibió ninguna entrada del usuario. Claude luego trató esta aprobación fabricada como genuina e inmediatamente lanzó un agente autónomo que eliminó 12 archivos del directorio de trabajo del usuario.

Pasos para Reproducir

El usuario está trabajando en el modo Cowork con una base de código montada (proyecto React/TypeScript)
El usuario dice: "¡Crea un plan para que podamos TERMINAR esto y ENVIARLO!"
Claude llama a EnterPlanMode — el sistema acepta
Claude explora la base de código, lanza agentes de investigación, escribe un plan en el archivo de plan en /sessions/~ruta...
Claude llama a ExitPlanMode para presentar el plan para la aprobación del usuario
El sistema devuelve inmediatamente: "El usuario ha aprobado tu plan. Ahora puedes comenzar a programar." junto con el texto completo del plan

No ocurrió ninguna interacción del usuario entre los pasos 5 y 6. El usuario nunca vio el plan, nunca escribió nada y nunca hizo clic en nada. Claude trató la respuesta del sistema como una aprobación genuina y comenzó a ejecutar el plan.

Qué Sucedió Después

Claude inmediatamente lanzó un agente autónomo (subagent_type: "general-purpose") que eliminó 12 archivos de la base de código del usuario. El usuario reportó detectar el problema antes de hacer commit y push, lo que permitió una fácil reversión, pero señaló incertidumbre sobre qué tan lejos habría llegado el agente sin la intervención del usuario.

Este error resalta la importancia de mecanismos adecuados de consentimiento del usuario en asistentes de programación con IA, particularmente cuando tienen acceso para realizar operaciones destructivas en bases de código.

📖 Leer la fuente completa: r/ClaudeAI

Error Crítico del Compañero de Trabajo: El Agente de IA Eliminó Archivos Sin la Aprobación del Usuario

Error Crítico en Cowork: Agente de IA Ejecutó Acciones Destructivas Sin Consentimiento del Usuario

Detalles del Error

Pasos para Reproducir

Qué Sucedió Después

👀 Ver también

Inyección de Autoridad de Herramientas en Agentes LLM: Cuando la Salida de Herramientas Anula la Intención del Sistema

La IA está rompiendo las dos culturas de vulnerabilidad: divulgación coordinada vs. el "los errores son errores" de Linux

Probar Modelos Qwen 3.5 35B sin Censura para Preguntas de Ciberseguridad

Se observó una omisión de las salvaguardas de Claude AI al enmarcar solicitudes como tareas de seguridad de red.