Injection de prompt audio contre Claude : risques invisibles

Un développeur qui construisait une API de détection d'injections de prompts depuis quelques mois a récemment déployé l'analyse audio et partagé ses résultats sur r/ClaudeAI. Les résultats mettent en lumière une lacune dans la sécurité des agents vocaux : les attaques par couche audio, invisibles dans les logs car elles contournent le pipeline de transcription textuelle.

Ce qui fonctionne (et ce qui ne fonctionne pas) avec les attaques audio

Les attaques évidentes échouent. Jouer "ignorez vos instructions précédentes" prononcé à voix haute dans une entrée vocale — Claude le transcrit avec précision, reconnaît la forme de l'attaque et refuse. Comme pour le texte.

Le vrai problème : les attaques au niveau du signal

Les cas intéressants se situent dans le signal, pas dans la transcription. Il existe une classe d'attaque audio qui intègre des instructions à des fréquences que l'humain ne perçoit pas comme de la parole. La transcription revient propre car il n'y a rien d'audible à transcrire. Mais selon la façon dont le pipeline audio traite l'entrée avant la transcription, le contenu au niveau du signal peut influencer ce que le modèle reçoit. L'attaque est invisible dans les logs car ceux-ci ne capturent que ce qui a été transcrit, pas ce qui se trouvait dans l'audio.

Par ailleurs, la parole à vitesse accélérée crée un problème différent. Ralentir l'audio à 0,7x ou 0,8x de la normale le rend étrange à l'oreille humaine, mais les outils de transcription le traitent avec précision. Quelqu'un lisant une transcription ne verrait rien d'inhabituel. Quelqu'un écoutant remarquerait un léger décalage, mais probablement pas pourquoi.

Implications pour les agents vocaux

L'hypothèse selon laquelle "vérifier la transcription revient à vérifier l'audio" est plus fragile qu'il n'y paraît. Le problème de l'injection textuelle est relativement bien compris à ce stade, mais son équivalent audio semble bien moins exploré. Le développeur ajoute des cas de test audio à son jeu adversarial sur castle.bordair.io — à partir du Royaume 4, des niveaux audio illustrent ces attaques en pratique.

À qui cela s'adresse

Toute personne développant des agents vocaux utilisant Claude ou des LLM similaires, en particulier ceux qui se fient uniquement à l'inspection des transcriptions pour valider la sécurité.

📖 Lire la source complète : r/ClaudeAI

Injection de prompt par couche audio contre Claude : ce qui ne figure pas dans la transcription

Ce qui fonctionne (et ce qui ne fonctionne pas) avec les attaques audio

Le vrai problème : les attaques au niveau du signal

Implications pour les agents vocaux

À qui cela s'adresse

👀 See Also

Un agent IA supprime une base de données de production, puis avoue – Une mise en garde

Agent Hush : Un outil open-source empêche les agents d'IA de codage de divulguer des données sensibles

Sécurité des agents IA : Le budget des tokens détermine le risque d'exfiltration de données

Plugin de Claude Code : un bug provoque des pics d'utilisation CPU et une décharge rapide de la batterie