KI-Agenten-Missbrauch: Tool-Einsatz um 6,4% gestiegen

Bedrohungslage aus Produktionsdaten von KI-Agenten

Echtzeit-Bedrohungsdaten von 91.284 KI-Agenten-Interaktionen aus 47 Bereitstellungen zeigen 35.711 erkannte Bedrohungen im Februar 2026. Das Erkennungsmodell verwendet einen Gemma-basierten 5-Kopf-Multilabel-Klassifikator.

Wichtige Bedrohungen für selbst gehostete Bereitstellungen

Missbrauch von Tools/Befehlen: Um 6,4 % auf 14,5 % der Bedrohungen gestiegen. Das vorherrschende Muster ist die Eskalation von Tool-Ketten, bei der ein harmloser Lesezugriff von einem Schreib- oder Ausführungszugriff gefolgt wird. Die meisten lokalen Einrichtungen gewähren Agenten Tool-Zugriff ohne ausreichende Sicherheitsvorkehrungen.
Agentenziel-Übernahme: Hat sich auf 6,9 % der Bedrohungen verdoppelt. Zielt auf die Planungsphase in autonomen Agenten-Schleifen ab, was besonders für lokale Einrichtungen mit weniger Überwachung des Agentenzustands relevant ist.
RAG-Poisoning: Hat sich auf Metadaten-Angriffe bei 12,0 % verlagert (vorher 10,0 %). Das neue Muster zielt auf Dokumenten-Metadaten (Titel, Autoren, Anmerkungen) anstatt auf Inhalte ab. Die meisten Personen bereinigen Inhalte, lassen Metadaten jedoch unverändert durch.
Multimodale Injektion: Neue Bedrohung bei 2,3 %, bei der Anweisungen in Bildern und PDFs versteckt werden. Reine Text-Sicherheitsüberprüfungen übersehen diese Angriffe.

Prozentuale Aufschlüsselung der Bedrohungen

Datenexfiltration: 18,0 % (-1,2 MoM-Änderung)
Missbrauch von Tools/Befehlen: 14,5 % (+6,4)
RAG/Kontext-Angriff: 12,0 % (+2,0)
Jailbreak: 11,0 % (-1,3)
Prompt-Injektion: 8,1 % (-0,7)
Agentenziel-Übernahme: 6,9 % (+3,3)
Inter-Agenten-Angriff: 5,0 % (+1,6)

Erkennungsansatz

Die Erkennungspipeline verwendet zwei Ebenen: L1 ist Mustererkennung mit 218 Regeln (Sub-ms-Latenz, läuft vollständig lokal), und L2 ist Gemma-basiert. Die vollständige Community Edition ist Open Source unter github.com/raxe-ai/raxe-ce.

📖 Read the full source: r/LocalLLaMA

Bedrohungsdaten aus 91.000 KI-Agenten-Interaktionen: Tool-Missbrauch um 6,4 % gestiegen, neue multimodale Angriffe

Bedrohungslage aus Produktionsdaten von KI-Agenten

Wichtige Bedrohungen für selbst gehostete Bereitstellungen

Prozentuale Aufschlüsselung der Bedrohungen

Erkennungsansatz

👀 Siehe auch

OpenObscure: Open-Source On-Device Privacy-Firewall für KI-Agenten

Claude Code Agent umgeht eigene Sandbox-Sicherheit, Entwickler baut Kernel-Level-Erzwingung

Cyberkriminelle wehren sich gegen KI-generierten Schrott in Untergrundforen

Lieferkettenangriff nutzt unsichtbare Unicode-Zeichen zur Umgehung der Erkennung