Sicherheitsanalyse von KI-Agenten deckt gebrochenes Vertrauensmodell und hohe Anfälligkeitsraten auf

✍️ OpenClawRadar📅 Veröffentlicht: 23. März 2026🔗 Source

Zusammenbruch der Sicherheitsarchitektur

Die Analyse zeigt, dass das grundlegende Vertrauensmodell für KI-Agenten gebrochen ist. Im Gegensatz zu traditionellen Sicherheitsarchitekturen verarbeiten KI-Agenten Angriffe und legitime Anweisungen über dasselbe Kontextfenster ohne strukturelle Unterscheidung. Die Trennung von Steuerungs- und Datenebene, die traditionelle Sicherheit stützt, existiert in aktuellen KI-Agenten-Implementierungen nicht.

Wichtige empirische Erkenntnisse

Indirekte Injektion erreicht Angriffserfolgsraten (ASR) von 36–98 % bei modernsten Modellen in den Benchmarks MCPTox, ASB und PINT
Leistungsfähigere Modelle sind ANFÄLLIGER für Angriffe auf Werkzeugebene
npm-MCP-Ökosystem-Scan: 2.386 Pakete untersucht, wobei 49 % Sicherheitsprobleme enthalten
Angriffsflächen wachsen überlinear mit den Fähigkeiten des Agenten

Vorgeschlagene Lösung: Agent Threat Rules (ATR)

Die Forschung stellt Agent Threat Rules (ATR) vor, den ersten offenen Erkennungsstandard für KI-Agenten-Bedrohungen. Die Implementierung umfasst:

61 Erkennungsregeln
99,4 % Genauigkeit im PINT-Benchmark
Open Source mit MIT-Lizenz
Verfügbar auf GitHub: https://github.com/Agent-Threat-Rule/agent-threat-rules

Die vollständige Arbeit behandelt 30+ CVEs, 7 Benchmarks und schlägt architektonische Anforderungen für Abwehrmaßnahmen vor, die mit der KI-Skalierung Schritt halten können.

📖 Read the full source: r/ClaudeAI

👀 Siehe auch

Sicherheit

Ward: Open-Source-Tool fängt npm-Installs ab, um Lieferkettenangriffe für Claude Code-Nutzer zu blockieren

Ward ist ein Open-Source-Tool, das sich in Paketmanager einklinkt, um jedes Paket zu überprüfen, bevor Installationsskripte ausgeführt werden. Wenn Claude Code npm install ausführt, scannt Ward automatisch Pakete auf Malware, Typosquatting, verdächtige Skripte und Versionsanomalien.

14. Apr. 2026, 09:45 UTC

OpenClawRadar

Sicherheit

MCP Sandbox: Führen Sie MCP-Server in isolierten Containern aus, ohne ihnen vertrauen zu müssen

Ein Entwickler hat MCP Sandbox erstellt, das MCP-Server in isolierten gVisor-Containern mit standardmäßig verweigerter Netzwerkzugriff und sicherer Geheimniseinschleusung ausführt, plus CVE-Scanning und Musterprüfung vor der Ausführung.

30. März 2026, 18:45 UTC

OpenClawRadar

Sicherheit

Überprüfen Sie Ihre Claude Code-Berechtigungen: Ein praktischer Leitfaden zur Eingrenzung des Tool-Zugriffs

Ein Reddit-Nutzer prüfte seine Claude Code-Einrichtung und stellte fest, dass Tools übermäßige Berechtigungen hatten, die .env-Dateien und Produktionskonfigurationen bearbeiten konnten. Praktische Schritte: Überprüfung von globalen vs. projektspezifischen Tools, Prüfung der CLAUDE.md auf Geheimnisse und Einschränkung des Dateizugriffs pro Verzeichnis.

12. Mai 2026, 06:21 UTC

OpenClawRadar

Sicherheit

AviationWeather.gov-API enthält 'Stop Claude'-Prompt-Injection-Versuch

Ein Nutzer berichtet, dass die AviationWeather.gov-API der US-Regierung in ihren Antworten den Text 'Stop Claude' zurückgibt, wenn sie über Claude CoWork abgerufen wird, was eine Sicherheitswarnung über Prompt-Injection-Angriffe auslöst.

10. März 2026, 22:45 UTC

OpenClawRadar