域伪装注入攻击规避多智能体LLM系统中的检测器

✍️ OpenClawRadar📅 Veröffentlicht: 23. Mai 2026🔗 Source
域伪装注入攻击规避多智能体LLM系统中的检测器
Ad

Ein neues Paper von Aaditya Pai identifiziert eine kritische Schwachstelle in LLM-Injection-Detektoren: domänengetarnte Injection-Angriffe – Payloads, die das Vokabular und die Autoritätsstrukturen des Zieldokuments nachahmen – umgehen systematisch die Erkennung. Standard-Detektoren erkennen statische Payloads mit hohen Raten, scheitern jedoch bei getarnten.

Wichtigste Erkenntnisse

  • Erkennungsrate bei Llama 3.1 8B: gesunken von 93,8 % (statisch) auf 9,7 % (getarnt).
  • Erkennungsrate bei Gemini 2.0 Flash: gesunken von 100 % auf 55,6 %.
  • Llama Guard 3, ein Produktions-Sicherheitsklassifikator, erkannte null getarnte Payloads (IDR = 0,000).
  • Die Tarnungserkennungslücke (CDG) ist statistisch signifikant über 45 Aufgaben und drei Domänen hinweg (Llama: χ² = 38,03, p < 0,001; Gemini: χ² = 17,05, p < 0,001).
Ad

Multi-Agent-Debatte verstärkt Angriffe

Multi-Agent-Debatten-Architekturen verstärken statische Injection-Angriffe um bis zu 9,9x bei kleineren Modellen. Stärkere Modelle zeigen kollektiven Widerstand. Gezielte Detektor-Erweiterung schließt die Lücke nur teilweise: 10,2 % Verbesserung bei Llama, 78,7 % bei Gemini – was darauf hindeutet, dass die Schwachstelle bei schwächeren Modellen architektonisch bedingt ist.

Framework veröffentlicht

Die Autoren veröffentlichen ihr Framework, die Aufgabensammlung und den Payload-Generator öffentlich. Die Schwachstelle erstreckt sich über Few-Shot-Detektoren hinaus auf dedizierte Sicherheitsklassifikatoren, was auf grundlegende Schwächen des aktuellen Ansatzes hindeutet.

📖 Lesen Sie die vollständige Quelle: HN LLM Tools

Ad

👀 Siehe auch