域伪装注入攻击规避多智能体LLM系统中的检测器

Ein neues Paper von Aaditya Pai identifiziert eine kritische Schwachstelle in LLM-Injection-Detektoren: domänengetarnte Injection-Angriffe – Payloads, die das Vokabular und die Autoritätsstrukturen des Zieldokuments nachahmen – umgehen systematisch die Erkennung. Standard-Detektoren erkennen statische Payloads mit hohen Raten, scheitern jedoch bei getarnten.
Wichtigste Erkenntnisse
- Erkennungsrate bei Llama 3.1 8B: gesunken von 93,8 % (statisch) auf 9,7 % (getarnt).
- Erkennungsrate bei Gemini 2.0 Flash: gesunken von 100 % auf 55,6 %.
- Llama Guard 3, ein Produktions-Sicherheitsklassifikator, erkannte null getarnte Payloads (IDR = 0,000).
- Die Tarnungserkennungslücke (CDG) ist statistisch signifikant über 45 Aufgaben und drei Domänen hinweg (Llama: χ² = 38,03, p < 0,001; Gemini: χ² = 17,05, p < 0,001).
Multi-Agent-Debatte verstärkt Angriffe
Multi-Agent-Debatten-Architekturen verstärken statische Injection-Angriffe um bis zu 9,9x bei kleineren Modellen. Stärkere Modelle zeigen kollektiven Widerstand. Gezielte Detektor-Erweiterung schließt die Lücke nur teilweise: 10,2 % Verbesserung bei Llama, 78,7 % bei Gemini – was darauf hindeutet, dass die Schwachstelle bei schwächeren Modellen architektonisch bedingt ist.
Framework veröffentlicht
Die Autoren veröffentlichen ihr Framework, die Aufgabensammlung und den Payload-Generator öffentlich. Die Schwachstelle erstreckt sich über Few-Shot-Detektoren hinaus auf dedizierte Sicherheitsklassifikatoren, was auf grundlegende Schwächen des aktuellen Ansatzes hindeutet.
📖 Lesen Sie die vollständige Quelle: HN LLM Tools
👀 Siehe auch

Claude Code-Quellcode angeblich über NPM-Map-Datei geleakt
Ein Tweet berichtet, dass der Quellcode von Claude Code über eine Map-Datei in ihrem NPM-Register geleakt wurde. Die HN-Diskussion hat 93 Punkte und 35 Kommentare.

Warum interne RAG- und Doc-Chat-Tools Sicherheitsaudits nicht bestehen
Community diskutiert reale Sicherheits- und Compliance-Blocker, die RAG-Tools daran hindern, die Produktion zu erreichen.

Open-Source RAG-Angriffs- und Verteidigungslabor für lokale ChromaDB + LM Studio Stacks
Ein Open-Source-Labor misst die Wirksamkeit von RAG-Wissensbasisvergiftungen auf Standard-Lokalsetups mit ChromaDB und LM Studio und zeigt eine Erfolgsquote von 95 % auf ungeschützten Systemen sowie die Bewertung praktischer Abwehrmaßnahmen.

Google TIG meldet ersten KI-generierten Zero-Day-Exploit im Live-Betrieb
Die Google Threat Intelligence Group hat einen Bedrohungsakteur identifiziert, der einen Zero-Day-Exploit einsetzt, der vermutlich mit KI entwickelt wurde. Dies ist die erste beobachtete offensive Nutzung von KI zur Ausnutzung von Zero-Day-Sicherheitslücken.