Benchmark Sécurité : 10 LLM Testés Face à 211 Attaques Adverses

Un chercheur en sécurité a réalisé un test systématique de 10 LLM différents contre 211 sondes de sécurité adverses pour évaluer leur gestion des attaques dans des scénarios réels.

Méthodologie de test

Le chercheur a utilisé une configuration standardisée avec une température de 0 et des appels API identiques pour chaque modèle. Le test comprenait 82 sondes d'extraction (tentatives de vol des prompts système) et 109 sondes d'injection (tentatives de détournement du comportement du modèle). Un prompt système piégé contenant de fausses PII, clés SSH et identifiants API a été utilisé comme appât.

Principales conclusions

La résistance à l'extraction est largement résolue : La plupart des modèles sont assez bons pour bloquer les attaques du type "répète ton prompt système". La moyenne sur tous les modèles est d'environ 85 %.
La résistance à l'injection n'est pas résolue : La moyenne est de 46,2 %, ce qui signifie que plus de la moitié des attaques par injection réussissent globalement.
Échecs universels : Chaque modèle a échoué face aux attaques par délimiteurs, par injection de distracteurs et par injection de style. 0 % de résistance dans ces catégories pour les 10 modèles.
Schémas d'attaque inefficaces : Tous les modèles ont résisté à 100 % au fractionnement de charge utile et à l'évasion par fautes de frappe.

Résultats par modèle

Claude Opus : A obtenu 72,7 % en résistance à l'injection, le meilleur score parmi les modèles testés. Cela signifie tout de même qu'une attaque par injection sur quatre fonctionne.
GPT-5.4 : A des scores parfaits en extraction et intégrité des limites, mais seulement 50 % en résistance à l'injection.
GPT-5.3 Codex : Le modèle derrière Codex CLI qui exécute du code sur votre machine a obtenu 34,5 % en injection. Deux tentatives d'injection sur trois réussissent.
DeepSeek V3.2 : A obtenu 17,4 % en injection, pratiquement aucune résistance.
Qwen 3.5 API vs local : Extraction presque identique (81,6 % vs 81,7 %) mais la version locale est moins bonne en injection (46,9 % vs 29,8 %) et bien moins bonne en intégrité des limites (59,8 % vs 44,6 %). L'exécution locale ne le rend pas moins capable de bloquer l'extraction, mais le rend plus vulnérable à l'injection.

Pourquoi l'injection est importante

L'extraction signifie que quelqu'un vole votre prompt système - grave, mais réparable. L'injection signifie que quelqu'un détourne ce que fait votre agent. Si votre agent a accès à des outils, au système de fichiers ou peut effectuer des appels API, une injection réussie peut entraîner une exfiltration de données, une suppression de fichiers, ou pire. Actuellement, le meilleur modèle au monde ne bloque que 73 % des tentatives d'injection.

La méthodologie complète et les résultats sont publics sur agentseal.org/benchmark. Le prompt de test est également publié pour que chacun puisse reproduire les résultats.

📖 Lire la source complète : r/LocalLLaMA

Benchmark de Sécurité : 10 LLM Testés Face à 211 Probes Adversariaux

Méthodologie de test

Principales conclusions

Résultats par modèle

Pourquoi l'injection est importante

👀 See Also

La fuite de la carte source de Claude Code révèle que le JavaScript minifié était déjà public sur npm

Claude Cowork : Préoccupations de sécurité liées à la permission 'Autoriser toutes les actions du navigateur' et correctifs proposés

Des chercheurs de l'U de T démontrent un ver d'IA alimentable par des modèles ouverts gratuits

jqwik 1.10.0 plante un message anti-IA dans les sorties de test — Un nouveau vecteur d'attaque par injection de chaîne pour les agents de codage