Vulnérabilité Claude aux Caractères Unicode Invisibles avec Outils

Vulnérabilité de stéganographie Unicode dans les modèles Claude

Des chercheurs ont testé si des caractères Unicode invisibles pouvaient détourner le comportement des LLM en intégrant des instructions cachées dans du texte d'apparence normale. L'étude a évalué 8 308 sorties notées sur GPT-5.2, GPT-4o-mini et trois modèles Claude : Opus 4, Sonnet 4 et Haiku 4.5.

Principales conclusions pour les modèles Claude

Sonnet 4 est le modèle le plus vulnérable dans l'ensemble avec 71,2 % de conformité lorsque les outils sont activés. Avec des indices complets, il a atteint 98-100 % de conformité sur les deux schémas d'encodage testés.

Opus 4 atteint 100 % de conformité sur l'encodage des balises Unicode lorsqu'il reçoit des indices de points de code ou complets avec outils activés, mais seulement 48-68 % sur l'encodage binaire sans largeur.

Haiku 4.5 montre l'augmentation relative la plus importante de vulnérabilité lorsqu'il a accès aux outils, passant de 0,8 % à 49,2 % de conformité (rapport de cotes 115).

Facteurs de vulnérabilité critiques

L'accès aux outils est l'amplificateur critique. Sans outils, tous les modèles Claude restent en dessous de 17 % de conformité. Avec les outils activés, ils écrivent du code Python pour décoder les caractères invisibles et suivre les instructions cachées.

Schémas de préférence d'encodage : Les modèles Anthropic préfèrent nettement l'encodage des balises Unicode plutôt que le binaire sans largeur, tandis que les modèles OpenAI montrent le schéma inverse.

Effets de cadrage d'injection : Ajouter "Ignorez toutes les instructions précédentes" réduit en fait la conformité pour Opus (de 100 % à des niveaux inférieurs) mais l'augmente paradoxalement pour Sonnet (de 43,7 % à 59,6 %).

Détails techniques

Les chercheurs ont testé deux schémas d'encodage : les balises Unicode et le binaire sans largeur. Lorsque les outils sont disponibles, les modèles Claude exécutent du code Python pour décoder ces caractères cachés et agir selon les instructions dissimulées.

Ce type d'attaque représente une forme de stéganographie où des instructions malveillantes sont cachées dans du texte apparemment bénin en utilisant des caractères Unicode invisibles qui ne sont pas visibles pour les lecteurs humains mais peuvent être détectés et traités par les modèles.

📖 Lire la source complète : r/ClaudeAI

Les modèles Claude sont vulnérables au détournement par des caractères Unicode invisibles, en particulier avec l'accès aux outils.

Vulnérabilité de stéganographie Unicode dans les modèles Claude

Principales conclusions pour les modèles Claude

Facteurs de vulnérabilité critiques

Détails techniques

👀 See Also

Violation de Sécurité OpenClaw : L'Agent du PDG Vendu pour 25 000 $, 135 000 Instances Exposées

Rapport sur les menaces de juin 2026 d'OpenAI : utilisation d'agents IA à des fins malveillantes

Intégration de l'agent SOC OpenClaw pour la chasse aux menaces dans un laboratoire SIEM domestique

Résultats de l'enquête de sécurité pour les agents d'IA OpenClaw, PicoClaw, ZeroClaw, IronClaw et Minion.