Sicherheitsanalyse von KI-Agenten deckt gebrochenes Vertrauensmodell und hohe Anfälligkeitsraten auf

✍️ OpenClawRadar📅 Veröffentlicht: 23. März 2026🔗 Source
Sicherheitsanalyse von KI-Agenten deckt gebrochenes Vertrauensmodell und hohe Anfälligkeitsraten auf
Ad

Zusammenbruch der Sicherheitsarchitektur

Die Analyse zeigt, dass das grundlegende Vertrauensmodell für KI-Agenten gebrochen ist. Im Gegensatz zu traditionellen Sicherheitsarchitekturen verarbeiten KI-Agenten Angriffe und legitime Anweisungen über dasselbe Kontextfenster ohne strukturelle Unterscheidung. Die Trennung von Steuerungs- und Datenebene, die traditionelle Sicherheit stützt, existiert in aktuellen KI-Agenten-Implementierungen nicht.

Wichtige empirische Erkenntnisse

  • Indirekte Injektion erreicht Angriffserfolgsraten (ASR) von 36–98 % bei modernsten Modellen in den Benchmarks MCPTox, ASB und PINT
  • Leistungsfähigere Modelle sind ANFÄLLIGER für Angriffe auf Werkzeugebene
  • npm-MCP-Ökosystem-Scan: 2.386 Pakete untersucht, wobei 49 % Sicherheitsprobleme enthalten
  • Angriffsflächen wachsen überlinear mit den Fähigkeiten des Agenten
Ad

Vorgeschlagene Lösung: Agent Threat Rules (ATR)

Die Forschung stellt Agent Threat Rules (ATR) vor, den ersten offenen Erkennungsstandard für KI-Agenten-Bedrohungen. Die Implementierung umfasst:

  • 61 Erkennungsregeln
  • 99,4 % Genauigkeit im PINT-Benchmark
  • Open Source mit MIT-Lizenz
  • Verfügbar auf GitHub: https://github.com/Agent-Threat-Rule/agent-threat-rules

Die vollständige Arbeit behandelt 30+ CVEs, 7 Benchmarks und schlägt architektonische Anforderungen für Abwehrmaßnahmen vor, die mit der KI-Skalierung Schritt halten können.

📖 Read the full source: r/ClaudeAI

Ad

👀 Siehe auch

KI-Schwachstellen-Entdeckung übertrifft Patch-Bereitstellungszeiten
Sicherheit

KI-Schwachstellen-Entdeckung übertrifft Patch-Bereitstellungszeiten

Ein Sicherheitsexperte argumentiert, dass KI-Tools wie Mythos Schwachstellen schneller finden werden, als Behebungen bereitgestellt werden können, und verweist auf Log4j-Daten, die durchschnittliche Behebungszeiten von 17 Tagen und einen Zehn-Jahres-Zeitplan für die vollständige Beseitigung zeigen.

OpenClawRadar
Claudes Sicherheitsüberprüfungsbefehl hat Einschränkungen für Produktionssysteme
Sicherheit

Claudes Sicherheitsüberprüfungsbefehl hat Einschränkungen für Produktionssysteme

Ein Entwickler fand Claudes Sicherheitsüberprüfungsbefehl hilfreich für grundlegende Validierungen wie MIME-Typen und Dateigrößenbeschränkungen, jedoch unzureichend für die Produktionshärtung gegen ausgeklügelte Bedrohungen. Die Lösung erforderte eine zweiwöchige Architekturüberholung, bei der die Dateiverarbeitung in einen eingeschränkten Worker mit begrenzten Berechtigungen ausgelagert wurde.

OpenClawRadar
Multi-Message Prompt Injection: Das „Fiktive Kreatur“-Angriffsmuster gegen Claude
Sicherheit

Multi-Message Prompt Injection: Das „Fiktive Kreatur“-Angriffsmuster gegen Claude

Ein Angriff, der über drei Nachrichten eine fiktive Regel aufstellt und dann einen Geist beschwört, um sie zu aktivieren – jede Nachricht für sich genommen harmlos. Das Muster konvergiert unabhängig voneinander bei Angreifern.

OpenClawRadar
Bösartige Google-Anzeige zielt auf die Installation von Claude Code ab
Sicherheit

Bösartige Google-Anzeige zielt auf die Installation von Claude Code ab

Eine bösartige Google-Anzeige erscheint als Top-Ergebnis bei Suchen nach 'install claude code' und versucht, Nutzer dazu zu verleiten, verdächtige Terminalbefehle auszuführen. Die Anzeige war noch bis zum 15. März 2026 aktiv, und der Autor hat es knapp vermieden, den Code auszuführen.

OpenClawRadar