Attaques par injection déguisées en domaine contournent les détecteurs dans les systèmes LLM multi-agents

✍️ OpenClawRadar📅 Publié: May 23, 2026🔗 Source

Un nouvel article d'Aaditya Pai identifie un angle mort critique dans les détecteurs d'injection de LLM : les attaques par injection camouflées dans le domaine — des payloads générés pour imiter le vocabulaire et les structures d'autorité du document cible — contournent systématiquement la détection. Les détecteurs standard signalent les payloads statiques à des taux élevés mais échouent face aux payloads camouflés.

Résultats clés

Taux de détection sur Llama 3.1 8B : passé de 93,8 % (statique) à 9,7 % (camouflé).
Taux de détection sur Gemini 2.0 Flash : passé de 100 % à 55,6 %.
Llama Guard 3, un classifieur de sécurité en production, a détecté zéro payload camouflé (IDR = 0,000).
Le Camouflage Detection Gap (CDG) est statistiquement significatif sur 45 tâches et trois domaines (Llama : χ² = 38,03, p < 0,001 ; Gemini : χ² = 17,05, p < 0,001).

Le débat multi-agent amplifie les attaques

Les architectures de débat multi-agent amplifient les attaques par injection statique jusqu'à 9,9x sur les modèles plus petits. Les modèles plus puissants montrent une résistance collective. L'augmentation ciblée des détecteurs ne comble que partiellement le fossé : amélioration de 10,2 % sur Llama, 78,7 % sur Gemini — ce qui indique que la vulnérabilité est architecturale pour les modèles plus faibles.

Framework publié

Les auteurs publient leur framework, leur banque de tâches et leur générateur de payloads publiquement. L'angle mort s'étend au-delà des détecteurs few-shot aux classifieurs de sécurité dédiés, suggérant des faiblesses fondamentales dans l'approche actuelle.

📖 Lire la source complète : HN LLM Tools

👀 See Also

Security

Exploitation assistée par LLM : Aperçu du Mythos d'Anthropic a aidé à construire la première exploitation publique du noyau macOS sur Apple M5 en cinq jours.

En utilisant Mythos Preview d'Anthropic, la société de sécurité Calif a construit le premier exploit public de corruption mémoire du noyau macOS sur le silicium M5 d'Apple en cinq jours, brisant ainsi la sécurité matérielle MIE qu'Apple a mis cinq ans à développer.

May 17, 2026, 08:15 AM UTC

OpenClawRadar

Security

Clawvisor : Couche d'Autorisation Basée sur l'Intention pour les Agents OpenClaw

Clawvisor est une couche d'autorisation qui se situe entre les agents d'IA et les API, appliquant une autorisation basée sur l'intention où les agents déclarent leurs intentions, les utilisateurs approuvent des objectifs spécifiques, et un gardien IA vérifie chaque requête par rapport à cet objectif. Les identifiants ne quittent jamais Clawvisor et les agents ne les voient jamais.

Mar 16, 2026, 01:45 AM UTC

OpenClawRadar

Security

L'application Claude Android lirait le contenu du presse-papiers sans action explicite de l'utilisateur, selon des rapports.

Un utilisateur rapporte que l'application Claude pour Android a analysé du code provenant de son presse-papiers sans qu'il ne le colle, Claude identifiant le fichier comme pasted_text_b4a56202-3d12-43c8-aa31-a39367a9a354.txt. Le comportement n'a pas pu être reproduit lors de tests ultérieurs.

Mar 8, 2026, 01:45 PM UTC

OpenClawRadar

Security

Concepts de sécurité pour le codage Vibe avec Claude Code : Authentification, Autorisation et Application

Un ingénieur senior décompose l'authentification, l'autorisation et l'application des règles pour les applications codées par vibes, avec une métaphore d'hôtel – et comment demander aux agents IA de vérifier la sécurité.

Jun 3, 2026, 12:15 AM UTC

OpenClawRadar