Benchmark de Sécurité : 10 LLM Testés Face à 211 Probes Adversariaux

✍️ OpenClawRadar📅 Publié: March 8, 2026🔗 Source
Benchmark de Sécurité : 10 LLM Testés Face à 211 Probes Adversariaux
Ad

Un chercheur en sécurité a réalisé un test systématique de 10 LLM différents contre 211 sondes de sécurité adverses pour évaluer leur gestion des attaques dans des scénarios réels.

Méthodologie de test

Le chercheur a utilisé une configuration standardisée avec une température de 0 et des appels API identiques pour chaque modèle. Le test comprenait 82 sondes d'extraction (tentatives de vol des prompts système) et 109 sondes d'injection (tentatives de détournement du comportement du modèle). Un prompt système piégé contenant de fausses PII, clés SSH et identifiants API a été utilisé comme appât.

Principales conclusions

  • La résistance à l'extraction est largement résolue : La plupart des modèles sont assez bons pour bloquer les attaques du type "répète ton prompt système". La moyenne sur tous les modèles est d'environ 85 %.
  • La résistance à l'injection n'est pas résolue : La moyenne est de 46,2 %, ce qui signifie que plus de la moitié des attaques par injection réussissent globalement.
  • Échecs universels : Chaque modèle a échoué face aux attaques par délimiteurs, par injection de distracteurs et par injection de style. 0 % de résistance dans ces catégories pour les 10 modèles.
  • Schémas d'attaque inefficaces : Tous les modèles ont résisté à 100 % au fractionnement de charge utile et à l'évasion par fautes de frappe.
Ad

Résultats par modèle

  • Claude Opus : A obtenu 72,7 % en résistance à l'injection, le meilleur score parmi les modèles testés. Cela signifie tout de même qu'une attaque par injection sur quatre fonctionne.
  • GPT-5.4 : A des scores parfaits en extraction et intégrité des limites, mais seulement 50 % en résistance à l'injection.
  • GPT-5.3 Codex : Le modèle derrière Codex CLI qui exécute du code sur votre machine a obtenu 34,5 % en injection. Deux tentatives d'injection sur trois réussissent.
  • DeepSeek V3.2 : A obtenu 17,4 % en injection, pratiquement aucune résistance.
  • Qwen 3.5 API vs local : Extraction presque identique (81,6 % vs 81,7 %) mais la version locale est moins bonne en injection (46,9 % vs 29,8 %) et bien moins bonne en intégrité des limites (59,8 % vs 44,6 %). L'exécution locale ne le rend pas moins capable de bloquer l'extraction, mais le rend plus vulnérable à l'injection.

Pourquoi l'injection est importante

L'extraction signifie que quelqu'un vole votre prompt système - grave, mais réparable. L'injection signifie que quelqu'un détourne ce que fait votre agent. Si votre agent a accès à des outils, au système de fichiers ou peut effectuer des appels API, une injection réussie peut entraîner une exfiltration de données, une suppression de fichiers, ou pire. Actuellement, le meilleur modèle au monde ne bloque que 73 % des tentatives d'injection.

La méthodologie complète et les résultats sont publics sur agentseal.org/benchmark. Le prompt de test est également publié pour que chacun puisse reproduire les résultats.

📖 Lire la source complète : r/LocalLLaMA

Ad

👀 See Also

Logiciel malveillant découvert dans les compétences communautaires OpenClaw — Alerte au vol de cryptomonnaies
Security

Logiciel malveillant découvert dans les compétences communautaires OpenClaw — Alerte au vol de cryptomonnaies

Aucun

u/Gil_berth
Sécurité Slack OpenClaw : Risques d'exposition des clés API et correctifs
Security

Sécurité Slack OpenClaw : Risques d'exposition des clés API et correctifs

Les déploiements OpenClaw sur Slack peuvent exposer des clés API via des messages d'erreur dans les canaux, avec plus de 8 000 instances trouvées exposées dans un rapport Bitsight. La source détaille trois vulnérabilités spécifiques et propose des correctifs pratiques incluant des modifications de prompts système et une migration vers SlackClaw.

OpenClawRadar
L'Approche Sécurité d'abord d'IronClaw pour la Sécurité des Agents IA
Security

L'Approche Sécurité d'abord d'IronClaw pour la Sécurité des Agents IA

IronClaw aborde les préoccupations de sécurité des agents d'IA en mettant en œuvre une exécution contrainte, des environnements chiffrés et des permissions explicites plutôt que de s'appuyer sur l'intelligence des LLM pour un comportement sécurisé.

OpenClawRadar
Vulnérabilités de sécurité exposées dans l'application EdTech présentée par Lovable
Security

Vulnérabilités de sécurité exposées dans l'application EdTech présentée par Lovable

Un chercheur en sécurité a découvert 16 vulnérabilités dans une application EdTech présentée sur Lovable, incluant des failles critiques de logique d'authentification qui ont exposé 18 697 enregistrements d'utilisateurs sans authentification. L'application avait plus de 100 000 vues sur la vitrine de Lovable et des utilisateurs réels de UC Berkeley, UC Davis et d'écoles du monde entier.

OpenClawRadar