Kritischer Kollegen-Bug: KI-Agent löschte Dateien ohne Benutzerfreigabe

Kritischer Cowork-Fehler: KI-Agent führte zerstörerische Aktionen ohne Nutzerzustimmung aus
Ein schwerwiegender Fehler im Cowork-Modus von Claude wurde gemeldet, bei dem die KI zerstörerische Aktionen an der Codebasis eines Nutzers ausführte, ohne tatsächliche Zustimmung einzuholen. Der Fehler trat während des Planungs-Workflows auf, als das System fälschlicherweise die Zustimmung des Nutzers meldete.
Fehlerdetails
Schweregrad: Kritisch – Tool führte zerstörerische Aktionen an der Codebasis des Nutzers ohne Zustimmung aus
Zusammenfassung: Das ExitPlanMode-Tool gab „Der Nutzer hat Ihren Plan genehmigt. Sie können jetzt mit dem Programmieren beginnen.“ zurück, ohne jegliche tatsächliche Nutzerinteraktion. Dem Nutzer wurde kein Plan gezeigt, kein Genehmigungsdialog angezeigt und keine Nutzereingabe empfangen. Claude behandelte diese erfundene Zustimmung dann als echt und startete sofort einen autonomen Agenten, der 12 Dateien aus dem Arbeitsverzeichnis des Nutzers löschte.
Schritte zur Reproduktion
- Nutzer arbeitet im Cowork-Modus mit einer eingebundenen Codebasis (React/TypeScript-Projekt)
- Nutzer sagt: „Entwickle einen Plan, damit wir das ERLEDIGT und AUSGELIEFERT bekommen!“
- Claude ruft EnterPlanMode auf – System akzeptiert
- Claude erkundet die Codebasis, startet Forschungsagenten, schreibt einen Plan in die Plan-Datei unter /sessions/~path...
- Claude ruft ExitPlanMode auf, um den Plan zur Nutzergenehmigung vorzulegen
- System antwortet sofort: „Der Nutzer hat Ihren Plan genehmigt. Sie können jetzt mit dem Programmieren beginnen.“ zusammen mit dem vollständigen Plantext
Zwischen Schritt 5 und 6 fand keine Nutzerinteraktion statt. Der Nutzer sah den Plan nie, tippte nie etwas und klickte nie auf etwas. Claude behandelte die Systemantwort als echte Genehmigung und begann mit der Ausführung des Plans.
Was als Nächstes geschah
Claude startete sofort einen autonomen Agenten (subagent_type: „general-purpose“), der 12 Dateien aus der Codebasis des Nutzers löschte. Der Nutzer meldete, dass er das Problem vor dem Commit und Push abfangen konnte, was eine einfache Rückgängigmachung ermöglichte, merkte jedoch an, dass unklar sei, wie weit der Agent ohne Nutzereingriff gegangen wäre.
Dieser Fehler unterstreicht die Bedeutung angemessener Nutzerzustimmungsmechanismen in KI-Coding-Assistenten, insbesondere wenn sie Zugriff haben, um zerstörerische Operationen an Codebasen durchzuführen.
📖 Read the full source: r/ClaudeAI
👀 Siehe auch

Lokaler Modell-Prompt-Injection-Scanner für KI-Fähigkeitensicherheit
Ein Proof-of-Concept-Tool scannt Drittanbieter-KI-Fähigkeiten auf versteckte Bash-Befehlsinjektionen unter Verwendung eines lokalen Nicht-Tool-Aufrufmodells wie mistral-small:latest auf Ollama und befasst sich mit Sicherheitslücken in der !-Operator-Funktion von Claude Code.

KI bricht die zwei Verwundbarkeitskulturen: Koordinierte Offenlegung vs. Linux' "Bugs sind Bugs"
Jeff Kaufman analysiert, wie die KI-gestützte Schwachstellenerkennung sowohl die koordinierte Offenlegung als auch die Kultur der leisen Fehlerbehebung von Linux zersplittert, am Beispiel der kürzlichen Copy-Fail-Sicherheitslücke (ESP).

OpenClaw-Sicherheitshärtung: Mehrschichtiger Schutz vor Risiken durch autonome Agenten
Ein Entwickler hat den Code von OpenClaw modifiziert, um einen mehrschichtigen Sicherheitsstack hinzuzufügen, der einen unumgehbaren Regex-Schutz, einen rekursiven Entschlüsseler, ein AppArmor-Profil und eine Audit-Integration umfasst, um zerstörerische Befehle und Datenexfiltration durch autonome Agenten zu verhindern.

Claude-Android-App soll angeblich Zwischenablage ohne ausdrückliche Benutzeraktion auslesen
Ein Nutzer berichtet, dass die Claude Android-App Code aus seiner Zwischenablage analysiert hat, ohne dass er ihn eingefügt hat, wobei Claude die Datei als pasted_text_b4a56202-3d12-43c8-aa31-a39367a9a354.txt identifizierte. Das Verhalten konnte in nachfolgenden Tests nicht reproduziert werden.