Attaques par injection déguisées en domaine contournent les détecteurs dans les systèmes LLM multi-agents

Un nouvel article d'Aaditya Pai identifie un angle mort critique dans les détecteurs d'injection de LLM : les attaques par injection camouflées dans le domaine — des payloads générés pour imiter le vocabulaire et les structures d'autorité du document cible — contournent systématiquement la détection. Les détecteurs standard signalent les payloads statiques à des taux élevés mais échouent face aux payloads camouflés.
Résultats clés
- Taux de détection sur Llama 3.1 8B : passé de 93,8 % (statique) à 9,7 % (camouflé).
- Taux de détection sur Gemini 2.0 Flash : passé de 100 % à 55,6 %.
- Llama Guard 3, un classifieur de sécurité en production, a détecté zéro payload camouflé (IDR = 0,000).
- Le Camouflage Detection Gap (CDG) est statistiquement significatif sur 45 tâches et trois domaines (Llama : χ² = 38,03, p < 0,001 ; Gemini : χ² = 17,05, p < 0,001).
Le débat multi-agent amplifie les attaques
Les architectures de débat multi-agent amplifient les attaques par injection statique jusqu'à 9,9x sur les modèles plus petits. Les modèles plus puissants montrent une résistance collective. L'augmentation ciblée des détecteurs ne comble que partiellement le fossé : amélioration de 10,2 % sur Llama, 78,7 % sur Gemini — ce qui indique que la vulnérabilité est architecturale pour les modèles plus faibles.
Framework publié
Les auteurs publient leur framework, leur banque de tâches et leur générateur de payloads publiquement. L'angle mort s'étend au-delà des détecteurs few-shot aux classifieurs de sécurité dédiés, suggérant des faiblesses fondamentales dans l'approche actuelle.
📖 Lire la source complète : HN LLM Tools
👀 See Also

Trois Vecteurs d'Attaque par Email Contre les Agents IA Qui Lisent les Emails
Un post sur Reddit détaille trois méthodes spécifiques que les attaquants peuvent utiliser pour détourner les agents IA qui traitent les emails : le Contournement d'Instructions, l'Exfiltration de Données et le Contournement par Jetons. Ces méthodes exploitent l'incapacité de l'agent à distinguer les instructions légitimes des instructions malveillantes intégrées dans le texte de l'email.

ClawSecure : Plateforme de Sécurité pour l'Écosystème OpenClaw avec Audit à 3 Niveaux et Surveillance en Temps Réel
ClawSecure est une plateforme de sécurité dédiée à OpenClaw qui effectue des audits de sécurité à 3 niveaux, une surveillance en temps réel avec suivi des hachages SHA-256 toutes les 12 heures, et offre une couverture complète OWASP ASI. Elle a audité plus de 3 000 compétences populaires et est gratuite sans inscription requise.

L'évaluation de l'AISI démontre les capacités cybernétiques de Claude Mythos Preview dans les CTF et les attaques multi-étapes.
L'Institut de Sécurité de l'IA a évalué la version préliminaire de Claude Mythos d'Anthropic, constatant qu'elle a réussi 73 % des défis de capture du drapeau de niveau expert et résolu une simulation d'attaque de réseau d'entreprise en 32 étapes dans 3 tentatives sur 10.

Les outils d'IA open source présentent des risques de sécurité via une "sécurité illusoire par la transparence".
Un post Reddit alerte sur des logiciels malveillants déguisés en agents d'IA open source et outils, où du code malveillant peut être dissimulé dans de vastes bases de code que les utilisateurs supposent sûres car elles sont sur GitHub. Le post décrit comment le 'vibe-coding' et les agents d'IA autonomes conditionnent les utilisateurs à exécuter des programmes inconnus sans vérification.