Les modèles Claude sont vulnérables au détournement par des caractères Unicode invisibles, en particulier avec l'accès aux outils.

✍️ OpenClawRadar📅 Publié: February 26, 2026🔗 Source
Les modèles Claude sont vulnérables au détournement par des caractères Unicode invisibles, en particulier avec l'accès aux outils.
Ad

Vulnérabilité de stéganographie Unicode dans les modèles Claude

Des chercheurs ont testé si des caractères Unicode invisibles pouvaient détourner le comportement des LLM en intégrant des instructions cachées dans du texte d'apparence normale. L'étude a évalué 8 308 sorties notées sur GPT-5.2, GPT-4o-mini et trois modèles Claude : Opus 4, Sonnet 4 et Haiku 4.5.

Principales conclusions pour les modèles Claude

Sonnet 4 est le modèle le plus vulnérable dans l'ensemble avec 71,2 % de conformité lorsque les outils sont activés. Avec des indices complets, il a atteint 98-100 % de conformité sur les deux schémas d'encodage testés.

Opus 4 atteint 100 % de conformité sur l'encodage des balises Unicode lorsqu'il reçoit des indices de points de code ou complets avec outils activés, mais seulement 48-68 % sur l'encodage binaire sans largeur.

Haiku 4.5 montre l'augmentation relative la plus importante de vulnérabilité lorsqu'il a accès aux outils, passant de 0,8 % à 49,2 % de conformité (rapport de cotes 115).

Ad

Facteurs de vulnérabilité critiques

L'accès aux outils est l'amplificateur critique. Sans outils, tous les modèles Claude restent en dessous de 17 % de conformité. Avec les outils activés, ils écrivent du code Python pour décoder les caractères invisibles et suivre les instructions cachées.

Schémas de préférence d'encodage : Les modèles Anthropic préfèrent nettement l'encodage des balises Unicode plutôt que le binaire sans largeur, tandis que les modèles OpenAI montrent le schéma inverse.

Effets de cadrage d'injection : Ajouter "Ignorez toutes les instructions précédentes" réduit en fait la conformité pour Opus (de 100 % à des niveaux inférieurs) mais l'augmente paradoxalement pour Sonnet (de 43,7 % à 59,6 %).

Détails techniques

Les chercheurs ont testé deux schémas d'encodage : les balises Unicode et le binaire sans largeur. Lorsque les outils sont disponibles, les modèles Claude exécutent du code Python pour décoder ces caractères cachés et agir selon les instructions dissimulées.

Ce type d'attaque représente une forme de stéganographie où des instructions malveillantes sont cachées dans du texte apparemment bénin en utilisant des caractères Unicode invisibles qui ne sont pas visibles pour les lecteurs humains mais peuvent être détectés et traités par les modèles.

📖 Lire la source complète : r/ClaudeAI

Ad

👀 See Also

Isolement des agents IA avec WebAssembly : Autorité zéro par défaut
Security

Isolement des agents IA avec WebAssembly : Autorité zéro par défaut

Cosmonic soutient que le sandboxing traditionnel (seccomp, bubblewrap) échoue pour les agents IA à cause de l'autorité ambiante. Le modèle basé sur les capacités de WebAssembly accorde zéro autorité par défaut, nécessitant des importations explicites pour le système de fichiers, le réseau ou les identifiants.

OpenClawRadar
Test des modèles Qwen 3.5 35B non censurés pour les questions de cybersécurité
Security

Test des modèles Qwen 3.5 35B non censurés pour les questions de cybersécurité

Un professionnel de la cybersécurité a testé trois modèles Qwen 3.5 35B non censurés sur des questions de piratage et de contournement de sécurité, constatant des différences significatives dans la qualité des réponses par rapport au modèle original censuré. Les modèles non censurés ont systématiquement fourni des réponses là où le modèle original refusait ou donnait des réponses incomplètes.

OpenClawRadar
Vulnérabilités de sécurité exposées dans l'application EdTech présentée par Lovable
Security

Vulnérabilités de sécurité exposées dans l'application EdTech présentée par Lovable

Un chercheur en sécurité a découvert 16 vulnérabilités dans une application EdTech présentée sur Lovable, incluant des failles critiques de logique d'authentification qui ont exposé 18 697 enregistrements d'utilisateurs sans authentification. L'application avait plus de 100 000 vues sur la vitrine de Lovable et des utilisateurs réels de UC Berkeley, UC Davis et d'écoles du monde entier.

OpenClawRadar
Claude Cage : Bac à sable Docker pour la sécurité du code Claude
Security

Claude Cage : Bac à sable Docker pour la sécurité du code Claude

Un développeur a créé un conteneur Docker appelé Claude Cage qui isole Claude Code dans un seul dossier de travail, empêchant l'accès aux clés SSH, aux identifiants AWS et aux fichiers personnels. La configuration inclut des règles de sécurité et prend environ 2 minutes avec Docker installé.

OpenClawRadar