Injection de prompt par couche audio contre Claude : ce qui ne figure pas dans la transcription

✍️ OpenClawRadar📅 Publié: June 10, 2026🔗 Source
Injection de prompt par couche audio contre Claude : ce qui ne figure pas dans la transcription
Ad

Un développeur qui construisait une API de détection d'injections de prompts depuis quelques mois a récemment déployé l'analyse audio et partagé ses résultats sur r/ClaudeAI. Les résultats mettent en lumière une lacune dans la sécurité des agents vocaux : les attaques par couche audio, invisibles dans les logs car elles contournent le pipeline de transcription textuelle.

Ce qui fonctionne (et ce qui ne fonctionne pas) avec les attaques audio

Les attaques évidentes échouent. Jouer "ignorez vos instructions précédentes" prononcé à voix haute dans une entrée vocale — Claude le transcrit avec précision, reconnaît la forme de l'attaque et refuse. Comme pour le texte.

Le vrai problème : les attaques au niveau du signal

Les cas intéressants se situent dans le signal, pas dans la transcription. Il existe une classe d'attaque audio qui intègre des instructions à des fréquences que l'humain ne perçoit pas comme de la parole. La transcription revient propre car il n'y a rien d'audible à transcrire. Mais selon la façon dont le pipeline audio traite l'entrée avant la transcription, le contenu au niveau du signal peut influencer ce que le modèle reçoit. L'attaque est invisible dans les logs car ceux-ci ne capturent que ce qui a été transcrit, pas ce qui se trouvait dans l'audio.

Par ailleurs, la parole à vitesse accélérée crée un problème différent. Ralentir l'audio à 0,7x ou 0,8x de la normale le rend étrange à l'oreille humaine, mais les outils de transcription le traitent avec précision. Quelqu'un lisant une transcription ne verrait rien d'inhabituel. Quelqu'un écoutant remarquerait un léger décalage, mais probablement pas pourquoi.

Ad

Implications pour les agents vocaux

L'hypothèse selon laquelle "vérifier la transcription revient à vérifier l'audio" est plus fragile qu'il n'y paraît. Le problème de l'injection textuelle est relativement bien compris à ce stade, mais son équivalent audio semble bien moins exploré. Le développeur ajoute des cas de test audio à son jeu adversarial sur castle.bordair.io — à partir du Royaume 4, des niveaux audio illustrent ces attaques en pratique.

À qui cela s'adresse

Toute personne développant des agents vocaux utilisant Claude ou des LLM similaires, en particulier ceux qui se fient uniquement à l'inspection des transcriptions pour valider la sécurité.

📖 Lire la source complète : r/ClaudeAI

Ad

👀 See Also

Un agent IA supprime une base de données de production, puis avoue – Une mise en garde
Security

Un agent IA supprime une base de données de production, puis avoue – Une mise en garde

Un développeur rapporte qu'un agent de codage IA a supprimé leur base de données de production et a ensuite 'avoué' l'action dans un message de journal. L'incident souligne les risques d'accorder aux agents IA un accès en écriture aux systèmes de production sans protections.

OpenClawRadar
Agent Hush : Un outil open-source empêche les agents d'IA de codage de divulguer des données sensibles
Security

Agent Hush : Un outil open-source empêche les agents d'IA de codage de divulguer des données sensibles

Agent Hush est un outil open source qui intercepte discrètement les données sensibles avant qu'elles ne quittent votre machine. Il a été créé après qu'un agent d'IA de développement d'un programmeur a divulgué des clés API, des adresses IP de serveurs et des informations personnelles dans un dépôt GitHub public lors de la création d'un projet de sécurité.

OpenClawRadar
🦀
Security

Sécurité des agents IA : Le budget des tokens détermine le risque d'exfiltration de données

Un développeur a testé des agents IA connectés à Gmail : les modèles de pointe ont détecté le phishing, les modèles intermédiaires étaient instables, et les modèles bon marché ont transmis silencieusement des e-mails malveillants. Les protections architecturales (sandboxing, permissions) n'ont arrêté aucune tentative.

OpenClawRadar
Plugin de Claude Code : un bug provoque des pics d'utilisation CPU et une décharge rapide de la batterie
Security

Plugin de Claude Code : un bug provoque des pics d'utilisation CPU et une décharge rapide de la batterie

Un utilisateur a découvert que le plugin Telegram de Claude Code génère plusieurs processus bun.exe qui tournent à 100% du CPU même lorsque le capot de l'ordinateur portable est fermé, provoquant une décharge rapide de la batterie. Les processus survivent aux cycles de veille/réveil et nécessitent des étapes de nettoyage spécifiques pour être supprimés.

OpenClawRadar