Sicherheitsanalyse von KI-Agenten deckt gebrochenes Vertrauensmodell und hohe Anfälligkeitsraten auf

Zusammenbruch der Sicherheitsarchitektur
Die Analyse zeigt, dass das grundlegende Vertrauensmodell für KI-Agenten gebrochen ist. Im Gegensatz zu traditionellen Sicherheitsarchitekturen verarbeiten KI-Agenten Angriffe und legitime Anweisungen über dasselbe Kontextfenster ohne strukturelle Unterscheidung. Die Trennung von Steuerungs- und Datenebene, die traditionelle Sicherheit stützt, existiert in aktuellen KI-Agenten-Implementierungen nicht.
Wichtige empirische Erkenntnisse
- Indirekte Injektion erreicht Angriffserfolgsraten (ASR) von 36–98 % bei modernsten Modellen in den Benchmarks MCPTox, ASB und PINT
- Leistungsfähigere Modelle sind ANFÄLLIGER für Angriffe auf Werkzeugebene
- npm-MCP-Ökosystem-Scan: 2.386 Pakete untersucht, wobei 49 % Sicherheitsprobleme enthalten
- Angriffsflächen wachsen überlinear mit den Fähigkeiten des Agenten
Vorgeschlagene Lösung: Agent Threat Rules (ATR)
Die Forschung stellt Agent Threat Rules (ATR) vor, den ersten offenen Erkennungsstandard für KI-Agenten-Bedrohungen. Die Implementierung umfasst:
- 61 Erkennungsregeln
- 99,4 % Genauigkeit im PINT-Benchmark
- Open Source mit MIT-Lizenz
- Verfügbar auf GitHub: https://github.com/Agent-Threat-Rule/agent-threat-rules
Die vollständige Arbeit behandelt 30+ CVEs, 7 Benchmarks und schlägt architektonische Anforderungen für Abwehrmaßnahmen vor, die mit der KI-Skalierung Schritt halten können.
📖 Read the full source: r/ClaudeAI
👀 Siehe auch

KI-Schwachstellen-Entdeckung übertrifft Patch-Bereitstellungszeiten
Ein Sicherheitsexperte argumentiert, dass KI-Tools wie Mythos Schwachstellen schneller finden werden, als Behebungen bereitgestellt werden können, und verweist auf Log4j-Daten, die durchschnittliche Behebungszeiten von 17 Tagen und einen Zehn-Jahres-Zeitplan für die vollständige Beseitigung zeigen.

Claudes Sicherheitsüberprüfungsbefehl hat Einschränkungen für Produktionssysteme
Ein Entwickler fand Claudes Sicherheitsüberprüfungsbefehl hilfreich für grundlegende Validierungen wie MIME-Typen und Dateigrößenbeschränkungen, jedoch unzureichend für die Produktionshärtung gegen ausgeklügelte Bedrohungen. Die Lösung erforderte eine zweiwöchige Architekturüberholung, bei der die Dateiverarbeitung in einen eingeschränkten Worker mit begrenzten Berechtigungen ausgelagert wurde.

Multi-Message Prompt Injection: Das „Fiktive Kreatur“-Angriffsmuster gegen Claude
Ein Angriff, der über drei Nachrichten eine fiktive Regel aufstellt und dann einen Geist beschwört, um sie zu aktivieren – jede Nachricht für sich genommen harmlos. Das Muster konvergiert unabhängig voneinander bei Angreifern.

Bösartige Google-Anzeige zielt auf die Installation von Claude Code ab
Eine bösartige Google-Anzeige erscheint als Top-Ergebnis bei Suchen nach 'install claude code' und versucht, Nutzer dazu zu verleiten, verdächtige Terminalbefehle auszuführen. Die Anzeige war noch bis zum 15. März 2026 aktiv, und der Autor hat es knapp vermieden, den Code auszuführen.