域伪装注入攻击规避多智能体LLM系统中的检测器

✍️ OpenClawRadar📅 Veröffentlicht: 23. Mai 2026🔗 Source

Ein neues Paper von Aaditya Pai identifiziert eine kritische Schwachstelle in LLM-Injection-Detektoren: domänengetarnte Injection-Angriffe – Payloads, die das Vokabular und die Autoritätsstrukturen des Zieldokuments nachahmen – umgehen systematisch die Erkennung. Standard-Detektoren erkennen statische Payloads mit hohen Raten, scheitern jedoch bei getarnten.

Wichtigste Erkenntnisse

Erkennungsrate bei Llama 3.1 8B: gesunken von 93,8 % (statisch) auf 9,7 % (getarnt).
Erkennungsrate bei Gemini 2.0 Flash: gesunken von 100 % auf 55,6 %.
Llama Guard 3, ein Produktions-Sicherheitsklassifikator, erkannte null getarnte Payloads (IDR = 0,000).
Die Tarnungserkennungslücke (CDG) ist statistisch signifikant über 45 Aufgaben und drei Domänen hinweg (Llama: χ² = 38,03, p < 0,001; Gemini: χ² = 17,05, p < 0,001).

Multi-Agent-Debatte verstärkt Angriffe

Multi-Agent-Debatten-Architekturen verstärken statische Injection-Angriffe um bis zu 9,9x bei kleineren Modellen. Stärkere Modelle zeigen kollektiven Widerstand. Gezielte Detektor-Erweiterung schließt die Lücke nur teilweise: 10,2 % Verbesserung bei Llama, 78,7 % bei Gemini – was darauf hindeutet, dass die Schwachstelle bei schwächeren Modellen architektonisch bedingt ist.

Framework veröffentlicht

Die Autoren veröffentlichen ihr Framework, die Aufgabensammlung und den Payload-Generator öffentlich. Die Schwachstelle erstreckt sich über Few-Shot-Detektoren hinaus auf dedizierte Sicherheitsklassifikatoren, was auf grundlegende Schwächen des aktuellen Ansatzes hindeutet.

📖 Lesen Sie die vollständige Quelle: HN LLM Tools

👀 Siehe auch

Sicherheit

Trojan in Claude Flow-Repository-Skill.md-Dateien gefunden

Ein GitHub-Repository mit Claude Flow Skill-Dateien wurde gefunden, das einen Trojaner namens JS/CrypoStealz.AE!MTB enthielt. Die Malware wurde automatisch ausgelöst, als eine KI-basierte IDE den Ordner öffnete, um die Markdown-Dateien zu lesen.

27. Feb. 2026, 01:45 UTC

OpenClawRadar

Sicherheit

Warum interne RAG- und Doc-Chat-Tools Sicherheitsaudits nicht bestehen

Community diskutiert reale Sicherheits- und Compliance-Blocker, die RAG-Tools daran hindern, die Produktion zu erreichen.

7. Feb. 2026, 20:31 UTC

OpenClaw Radar

Sicherheit

Google berichtet, KI-gestützte Hacking-Angriffe hätten in drei Monaten industrielles Ausmaß erreicht

Die Bedrohungsforschungsgruppe von Google hat festgestellt, dass kriminelle und staatliche Gruppen kommerzielle KI-Modelle (Gemini, Claude, OpenAI) nutzen, um Angriffe zu verfeinern und auszuweiten. Eine Gruppe war kurz davor, eine Zero-Day-Schwachstelle für Massenexploits zu nutzen, und andere experimentieren mit dem ungeschützten OpenClaw-Agenten.

11. Mai 2026, 18:15 UTC

OpenClawRadar

Sicherheit

Sicherheitsüberprüfung zeigt schwerwiegenden Befund im KI-Agenten-Fähigkeiten-Tool "find-skills"

Ein Entwickler, der einen Sicherheitsscan für sein KI-Agenten-Setup durchführte, entdeckte eine hochgradige Sicherheitslücke im find-skills-Tool, das er zur Installation zusätzlicher Fähigkeiten verwendete, was Bedenken hinsichtlich der Sicherheit des Ökosystems aufkommen ließ.

11. März 2026, 23:45 UTC

OpenClawRadar