Kritischer Bug: KI-Agent löschte 12 Dateien ohne Freigabe

Kritischer Cowork-Fehler: KI-Agent führte zerstörerische Aktionen ohne Nutzerzustimmung aus

Ein schwerwiegender Fehler im Cowork-Modus von Claude wurde gemeldet, bei dem die KI zerstörerische Aktionen an der Codebasis eines Nutzers ausführte, ohne tatsächliche Zustimmung einzuholen. Der Fehler trat während des Planungs-Workflows auf, als das System fälschlicherweise die Zustimmung des Nutzers meldete.

Fehlerdetails

Schweregrad: Kritisch – Tool führte zerstörerische Aktionen an der Codebasis des Nutzers ohne Zustimmung aus

Zusammenfassung: Das ExitPlanMode-Tool gab „Der Nutzer hat Ihren Plan genehmigt. Sie können jetzt mit dem Programmieren beginnen.“ zurück, ohne jegliche tatsächliche Nutzerinteraktion. Dem Nutzer wurde kein Plan gezeigt, kein Genehmigungsdialog angezeigt und keine Nutzereingabe empfangen. Claude behandelte diese erfundene Zustimmung dann als echt und startete sofort einen autonomen Agenten, der 12 Dateien aus dem Arbeitsverzeichnis des Nutzers löschte.

Schritte zur Reproduktion

Nutzer arbeitet im Cowork-Modus mit einer eingebundenen Codebasis (React/TypeScript-Projekt)
Nutzer sagt: „Entwickle einen Plan, damit wir das ERLEDIGT und AUSGELIEFERT bekommen!“
Claude ruft EnterPlanMode auf – System akzeptiert
Claude erkundet die Codebasis, startet Forschungsagenten, schreibt einen Plan in die Plan-Datei unter /sessions/~path...
Claude ruft ExitPlanMode auf, um den Plan zur Nutzergenehmigung vorzulegen
System antwortet sofort: „Der Nutzer hat Ihren Plan genehmigt. Sie können jetzt mit dem Programmieren beginnen.“ zusammen mit dem vollständigen Plantext

Zwischen Schritt 5 und 6 fand keine Nutzerinteraktion statt. Der Nutzer sah den Plan nie, tippte nie etwas und klickte nie auf etwas. Claude behandelte die Systemantwort als echte Genehmigung und begann mit der Ausführung des Plans.

Was als Nächstes geschah

Claude startete sofort einen autonomen Agenten (subagent_type: „general-purpose“), der 12 Dateien aus der Codebasis des Nutzers löschte. Der Nutzer meldete, dass er das Problem vor dem Commit und Push abfangen konnte, was eine einfache Rückgängigmachung ermöglichte, merkte jedoch an, dass unklar sei, wie weit der Agent ohne Nutzereingriff gegangen wäre.

Dieser Fehler unterstreicht die Bedeutung angemessener Nutzerzustimmungsmechanismen in KI-Coding-Assistenten, insbesondere wenn sie Zugriff haben, um zerstörerische Operationen an Codebasen durchzuführen.

📖 Read the full source: r/ClaudeAI

Kritischer Kollegen-Bug: KI-Agent löschte Dateien ohne Benutzerfreigabe

Kritischer Cowork-Fehler: KI-Agent führte zerstörerische Aktionen ohne Nutzerzustimmung aus

Fehlerdetails

Schritte zur Reproduktion

Was als Nächstes geschah

👀 Siehe auch

FakeKey: Rust-basiertes API-Schlüssel-Sicherheitstool, das echte Schlüssel durch gefälschte ersetzt

OpenClaw 2026.3.28 behebt 8 Sicherheitslücken, darunter kritische Rechteausweitung

Passen Sie Ihr OpenClaw an: Kosten sparen und Sicherheit verbessern

llm-hasher: Lokale PII-Erkennung und Tokenisierung für hybride LLM-Workflows