Attaque Unicode Invisible: 98-100% de Succès sur les LLM avec Outils

Vue d'ensemble de la recherche

Les chercheurs ont testé si les grands modèles de langage (LLM) suivent des instructions cachées dans des caractères Unicode invisibles intégrés dans du texte d'apparence normale. L'étude a évalué deux schémas d'encodage (binaire de largeur nulle et balises Unicode) sur cinq modèles : GPT-5.2, GPT-4o-mini, Claude Opus 4, Sonnet 4 et Haiku 4.5. Ils ont analysé 8 308 sorties évaluées pour évaluer la vulnérabilité à cette attaque stéganographique.

Principales conclusions

L'accès aux outils est le principal amplificateur : Sans outils, la conformité aux instructions cachées est restée inférieure à 17 %. Avec des outils et des indices de décodage, la conformité a atteint 98-100 %. Les modèles écrivent des scripts Python pour décoder les caractères cachés lorsqu'ils ont accès à des outils.
La vulnérabilité d'encodage est spécifique au fournisseur : Les modèles OpenAI décodent le binaire de largeur nulle mais pas les balises Unicode. Les modèles Anthropic préfèrent les balises. Les attaquants doivent adapter l'encodage au modèle cible.
Le gradient d'indices est cohérent : Conformité sans indices << indices de points de code < instructions de décodage complètes. La combinaison de l'accès aux outils + instructions de décodage est l'élément facilitateur critique.
Signification statistique : Les 10 comparaisons par paires de modèles sont statistiquement significatives (test exact de Fisher, correction de Bonferroni, p < 0,05). Les tailles d'effet de Cohen h ont atteint jusqu'à 1,37.

Détails de la recherche

Les chercheurs notent qu'il serait intéressant de voir comment les modèles locaux se comparent, car ils n'ont testé que des modèles API. Ils invitent d'autres personnes à exécuter cette évaluation sur Llama, Qwen, Mistral et d'autres modèles locaux en utilisant leur cadre open-source.

Le cadre d'évaluation, le code et les données sont disponibles sur GitHub, et un compte-rendu complet avec graphiques est publié sur Moltwire. Cette recherche met en lumière une vulnérabilité de sécurité où les agents LLM peuvent être manipulés par du texte caché qui apparaît normal aux utilisateurs humains mais contient des instructions encodées que les modèles peuvent décoder et exécuter lorsqu'ils disposent des outils appropriés.

📖 Lire la source complète : r/LocalLLaMA

Recherche : Les caractères Unicode invisibles peuvent détourner les agents LLM via l'accès aux outils

Vue d'ensemble de la recherche

Principales conclusions

Détails de la recherche

👀 See Also

FORGE : Cadre de test de sécurité IA open source pour les systèmes LLM

Violation de sécurité OpenClaw : 42 000 instances exposées

Isolation de couche proxy pour la sécurité des clés API d'agent local

Le noyau Linux propose un système d'identité décentralisé pour remplacer la toile de confiance PGP