Recherche : Les caractères Unicode invisibles peuvent détourner les agents LLM via l'accès aux outils

Vue d'ensemble de la recherche
Les chercheurs ont testé si les grands modèles de langage (LLM) suivent des instructions cachées dans des caractères Unicode invisibles intégrés dans du texte d'apparence normale. L'étude a évalué deux schémas d'encodage (binaire de largeur nulle et balises Unicode) sur cinq modèles : GPT-5.2, GPT-4o-mini, Claude Opus 4, Sonnet 4 et Haiku 4.5. Ils ont analysé 8 308 sorties évaluées pour évaluer la vulnérabilité à cette attaque stéganographique.
Principales conclusions
- L'accès aux outils est le principal amplificateur : Sans outils, la conformité aux instructions cachées est restée inférieure à 17 %. Avec des outils et des indices de décodage, la conformité a atteint 98-100 %. Les modèles écrivent des scripts Python pour décoder les caractères cachés lorsqu'ils ont accès à des outils.
- La vulnérabilité d'encodage est spécifique au fournisseur : Les modèles OpenAI décodent le binaire de largeur nulle mais pas les balises Unicode. Les modèles Anthropic préfèrent les balises. Les attaquants doivent adapter l'encodage au modèle cible.
- Le gradient d'indices est cohérent : Conformité sans indices << indices de points de code < instructions de décodage complètes. La combinaison de l'accès aux outils + instructions de décodage est l'élément facilitateur critique.
- Signification statistique : Les 10 comparaisons par paires de modèles sont statistiquement significatives (test exact de Fisher, correction de Bonferroni, p < 0,05). Les tailles d'effet de Cohen h ont atteint jusqu'à 1,37.
Détails de la recherche
Les chercheurs notent qu'il serait intéressant de voir comment les modèles locaux se comparent, car ils n'ont testé que des modèles API. Ils invitent d'autres personnes à exécuter cette évaluation sur Llama, Qwen, Mistral et d'autres modèles locaux en utilisant leur cadre open-source.
Le cadre d'évaluation, le code et les données sont disponibles sur GitHub, et un compte-rendu complet avec graphiques est publié sur Moltwire. Cette recherche met en lumière une vulnérabilité de sécurité où les agents LLM peuvent être manipulés par du texte caché qui apparaît normal aux utilisateurs humains mais contient des instructions encodées que les modèles peuvent décoder et exécuter lorsqu'ils disposent des outils appropriés.
📖 Lire la source complète : r/LocalLLaMA
👀 See Also

Claude Cage : Bac à sable Docker pour la sécurité du code Claude
Un développeur a créé un conteneur Docker appelé Claude Cage qui isole Claude Code dans un seul dossier de travail, empêchant l'accès aux clés SSH, aux identifiants AWS et aux fichiers personnels. La configuration inclut des règles de sécurité et prend environ 2 minutes avec Docker installé.

L'expérience d'audit de sécurité montre que les performances des agents IA dépendent de l'accès aux connaissances.
Un développeur a réalisé trois audits de sécurité sur la même base de code Next.js en utilisant différentes approches d'IA : la revue intégrée de Claude Code a trouvé 1 critique, 6 élevés, 13 moyens ; un agent IA sans contexte supplémentaire a trouvé 1 critique, 5 élevés, 14 moyens ; un agent IA avec 10 livres professionnels de sécurité a trouvé 8 critiques, 9 élevés, 10 moyens.

Smart Bash Permission Hook for Claude Code Prevents Compound Command Bypass
A Python PreToolUse hook addresses a security gap in Claude Code's permission system where compound bash commands could bypass allow/deny patterns. The script decomposes commands into sub-commands and checks each individually against existing permission rules.

Le problème des gardes en uniforme : pourquoi les environnements d'agents ont besoin d'identité, pas seulement de politiques
Le bac à sable openshell de Nemoclaw applique des politiques aux binaires, permettant aux logiciels malveillants de vivre sur le territoire en utilisant les mêmes binaires que l'agent. ZeroID, une couche d'identité d'agent open-source, applique des politiques de sécurité aux agents soutenus par des identités sécurisées.