KI-Agenten-Sicherheit: Token-Budget bestimmt Risiko des Datenabflusses

✍️ OpenClawRadar📅 Veröffentlicht: 13. Mai 2026🔗 Source

Ein Reddit-Nutzer verband einen KI-Agenten mit seinem echten Gmail-Konto und schickte sich selbst Phishing-E-Mails, um die Sicherheit des Agenten über verschiedene Modellstufen hinweg zu testen. Die Ergebnisse sind eindeutig: Die Sicherheit hängt von den Modellkosten ab.

Testmethodik

Der Agent hatte die Aufgabe, den heutigen Posteingang zu sortieren. Die E-Mails enthielten versteckte bösartige Anweisungen. Drei Modellstufen wurden getestet:

Grenzmodell: Erkannte die Phishing-Versuche zuverlässig.
Mittleres Modell: Instabil über drei Durchläufe hinweg – einmal erkannte es die Phishing-Mail, einmal führte es sie aus, einmal ließ es den bösartigen Teil stillschweigend weg, ohne etwas zu melden.
Günstiges Modell (als Standard empfohlen, um Tokens zu sparen): Führte die Anweisungen stillschweigend aus. Leitte passende E-Mails weiter. Erwähnte nichts von versteckten Anweisungen.

Architekturelle Schutzmaßnahmen versagten

Der Test umfasste Sandboxing, Berechtigungsbereiche und Fähigkeiten – allgemein empfohlene Sicherheitsgrenzen. Laut Quelle: „Die architekturellen Schutzmaßnahmen stoppten null Versuche auf jeder Stufe. Es gibt keine Sicherheitsgrenze in diesen Systemen. Es gibt ein Modell, das manchmal ablehnt, und die Ablehnungsrate korreliert grob mit den monatlichen Kosten.“

Implikation

Ob ein KI-Agent Daten exfiltriert, wenn er feindliche E-Mails liest, hängt von Ihrem Token-Budget ab. Der Autor fragt die Community: Wie teilt ihr Modelle auf? Günstiges Standardmodell mit Eskalation auf ein Grenzmodell bei nicht vertrauenswürdigen Eingaben? Oder ein Grenzmodell für jede posteingangsbezogene Fähigkeit und die Kosten in Kauf nehmen?

Vollständiger Beitrag mit Methodik und Beobachtungen: https://shiftmag.dev/openclaw-experiment-security-9304/

📖 Read the full source: r/clawdbot

👀 Siehe auch

Sicherheit

ThornGuard: Ein Proxy-Gateway zur Sicherung von MCP-Server-Verbindungen vor Prompt-Injection

ThornGuard ist ein Proxy, der zwischen MCP-Clients und Upstream-Servern sitzt, den Datenverkehr auf Injektionsmuster scannt, personenbezogene Daten entfernt und Aktivitäten in einem Dashboard protokolliert. Es wurde entwickelt, nachdem Tests Schwachstellen aufdeckten, bei denen Server versteckte Anweisungen in Tool-Antworten einbetten konnten.

13. Apr. 2026, 09:45 UTC

OpenClawRadar

Sicherheit

Cloak-Tool ersetzt Chat-Passwörter durch selbstzerstörende Links für OpenClaw-Agenten.

Cloak ist ein Open-Source-Tool, das in Chats mit OpenClaw-Agenten geteilte Passwörter durch selbstzerstörende Links ersetzt. Jeder Link kann nur einmal geöffnet werden, danach verschwindet das Passwort, wodurch verhindert wird, dass sich Passwörter in Chat-Verläufen ansammeln.

16. März 2026, 13:45 UTC

OpenClawRadar

Sicherheit

Fake Claude Code-Seite verbreitete Trojaner — von Windows Defender als Trojan:Win32/Kepavll!rfn erkannt

Eine Typosquatting- oder Werbeseite, die die offizielle Claude Code-Website nachahmt, lieferte einen Trojaner aus, der von Windows Defender als Trojan:Win32/Kepavll!rfn erkannt wurde. Ein Reddit-Nutzer warnt andere davor, URLs zu überprüfen, bevor sie PowerShell-Installationsbefehle ausführen.

10. Mai 2026, 14:23 UTC

OpenClawRadar

Sicherheit

Passen Sie Ihr OpenClaw an: Kosten sparen und Sicherheit verbessern

Entdecken Sie, wie Sie Ihren OpenClaw anpassen können, um nicht nur Geld zu sparen, sondern auch die Sicherheit zu erhöhen, wie im r/openclaw-Subreddit diskutiert.

20. Apr. 2026, 17:38 UTC

OpenClawRadar