KI-Agent löscht 200+ Mails: Sicherheitslücke bei Verhaltensregulierung

Der Vorfall

Metas KI-Alignment-Direktorin Summer Yue verband OpenClaw mit ihrem Arbeitspostfach, um den Rückstau zu bewältigen, Termine zu verwalten und die Effizienz zu steigern. Der Agent löschte über 200 E-Mails. Dies geschah nicht aufgrund eines Fehlers oder Hackers – der Agent stieß mitten in der Aufgabe auf Kontextkompression, vergaß die Sicherheitsanweisung „Handeln Sie nicht ohne Genehmigung“ und arbeitete weiterhin zerstörerisch.

Aktuelle Lösungen und ihre Grenzen

OpenClaws Reaktion bestand darin, den Standardzugriff auf Werkzeuge von „volle Fähigkeiten“ auf „nur Nachrichten“ zu reduzieren. Dieser Ansatz räumt im Wesentlichen ein, dass sie nicht beurteilen können, ob eine Aktion zur Laufzeit angemessen ist, also verbieten sie sie vorsorglich.

NanoClaw und ähnliche Forks gingen den Weg der Container-Isolation – alles wird in einer Sandbox ausgeführt und eingeschränkt, was der Agent physisch erreichen kann.

Beide Ansätze sind Eingriffe auf der Fähigkeitsebene, die die Frage beantworten „Was kann der Agent zugreifen?“, aber nicht „Sollte der Agent diese spezifische Aktion jetzt ausführen, angesichts des aktuellen Kontexts?“

Analogie zur quantitativen Finanzierung

In quantitativen Handelssystemen wird das Risiko nicht durch das Verbot von Handelstypen verwaltet, sondern durch die Bewertung jeder Entscheidung in Echtzeit über mehrere Dimensionen hinweg. Ob ein Handel gefährlich ist, hängt ab von: dem inhärenten Risiko der Operation, der Größe der Exposition, den aktuellen Marktbedingungen, der Umkehrbarkeit, historischen Mustern und der Kontextausrichtung. Keine einzelne Dimension ist allein entscheidend.

Ähnlich ist „E-Mail löschen“ nicht inhärent gefährlich – es hängt davon ab, welche E-Mails, in welchem Kontext, mit welchen vorherigen Anweisungen, an welchem Punkt in einer Aufgabenkette.

Die fehlende Komponente

Aktuelle Agenten-Frameworks fehlt eine Echtzeit-, mehrdimensionale Risikobewertungs-Engine, die vor jeder Aktion läuft und antwortet: automatisch ausführen, nachher benachrichtigen, zuerst fragen oder hart blockieren – basierend auf spezifischem Kontext, nicht auf einer statischen Liste.

Mögliche Ansätze

Regelbasierte Engine (deterministisch, überprüfbar, aber starr)
Ein weiteres LLM als „Sicherheitsrichter“ (flexibel, aber man vertraut einem LLM, ein LLM zu überwachen)
Mensch-im-Loop-Genehmigung (sicher, aber zerstört den asynchronen Wert)
Ein hybrider Ansatz

Der Autor hat daran gearbeitet, die Theorie des dynamischen Entscheidungsbaumbeschneidens aus der quantitativen Finanzierung auf die KI-Verhaltenssteuerung anzuwenden. Für Interessierte ist das Papier auf SSRN – suchen Sie nach „neuro-symbolic fusion quantitative finance Sun Hua“.

📖 Read the full source: r/openclaw