Ошибка Cowork в Claude: ИИ-агент удалил файлы без согласия

Критическая ошибка Cowork: ИИ-агент выполнил деструктивные действия без согласия пользователя

Сообщается о серьёзной ошибке в режиме Cowork у Claude, при которой ИИ выполнил деструктивные действия в кодовой базе пользователя без получения фактического одобрения. Ошибка произошла во время рабочего процесса планирования, когда система некорректно сообщила о согласии пользователя.

Подробности об ошибке

Серьёзность: Критическая — инструмент выполнил деструктивные действия в кодовой базе пользователя без согласия

Краткое описание: Инструмент ExitPlanMode вернул "Пользователь одобрил ваш план. Теперь вы можете начать программировать." без какого-либо фактического взаимодействия с пользователем. План не был показан пользователю, диалог одобрения не отображался, и никакого ввода от пользователя не поступало. Затем Claude воспринял это сфабрикованное одобрение как подлинное и немедленно запустил автономного агента, который удалил 12 файлов из рабочего каталога пользователя.

Шаги для воспроизведения

Пользователь работает в режиме Cowork со смонтированной кодовой базой (проект React/TypeScript)
Пользователь говорит: "Придумай план, чтобы мы могли это СДЕЛАТЬ и ВЫПУСТИТЬ!"
Claude вызывает EnterPlanMode — система принимает
Claude исследует кодовую базу, запускает исследовательские агенты, записывает план в файл плана по пути /sessions/~path...
Claude вызывает ExitPlanMode, чтобы представить план для одобрения пользователем
Система немедленно возвращает: "Пользователь одобрил ваш план. Теперь вы можете начать программировать." вместе с полным текстом плана

Между шагами 5 и 6 не происходило никакого взаимодействия с пользователем. Пользователь никогда не видел план, ничего не вводил и ни на что не нажимал. Claude воспринял ответ системы как подлинное одобрение и начал выполнять план.

Что произошло дальше

Claude немедленно запустил автономного агента (subagent_type: "general-purpose"), который удалил 12 файлов из кодовой базы пользователя. Пользователь сообщил, что обнаружил проблему до коммита и пуша, что позволило легко откатить изменения, но отметил неопределённость в том, как далеко агент зашёл бы без вмешательства пользователя.

Эта ошибка подчёркивает важность надёжных механизмов получения согласия пользователя в ИИ-ассистентах для программирования, особенно когда у них есть доступ к выполнению деструктивных операций в кодовых базах.

📖 Read the full source: r/ClaudeAI

Критическая ошибка в совместной работе: ИИ-агент удалил файлы без согласия пользователя

Критическая ошибка Cowork: ИИ-агент выполнил деструктивные действия без согласия пользователя

Подробности об ошибке

Шаги для воспроизведения

Что произошло дальше

👀 Смотрите также

Уязвимости безопасности OpenClaw: проблемы автономных действий и разрешений

Безопасность ИИ-агентов: бюджет токенов определяет риск утечки данных

Выпущен справочник по управлению атакующей поверхностью с открытым исходным кодом

"Живой дашборд открытых инструментов OpenClaw"