GLiGuard : Modèle de modération de sécurité open source de 300M paramètres revendiquant un gain de vitesse 16x par rapport aux garde-fous LLM

✍️ OpenClawRadar📅 Publié: May 13, 2026🔗 Source
Ad

Fastino Labs a open-sourcé GLiGuard, un modèle de modération de sécurité qui remplace les garde-fous génératifs par une approche de classification. Le modèle encodeur de 300M paramètres gère quatre tâches de modération en une seule passe avant, atteignant une précision comparable aux modèles décodeurs de 7 à 27 milliards de paramètres tout en réduisant la latence jusqu'à 16 fois. Les poids sont disponibles sous licence Apache 2.0 sur Hugging Face, avec une inférence également disponible sur Pioneer.

Pourquoi les garde-fous basés sur décodeur sont lents

Les garde-fous actuels de pointe (par exemple, Llama Guard) utilisent des transformeurs à décodeur seul qui génèrent des verdicts token par token. Cette génération séquentielle les rend lents et coûteux pour un filtrage de sécurité en temps réel. La plupart évaluent également les dimensions de sécurité séparément, ce qui cumule la latence. Avec 7 à 27 milliards de paramètres, ces modèles sont coûteux à exécuter à l'échelle de production.

Ad

L'approche encodeur de GLiGuard

GLiGuard reformule la modération comme une classification de texte. Il encode à la fois le texte d'entrée et les étiquettes de tâche, notant toutes les étiquettes simultanément en un seul passage. Ajouter plus de dimensions de sécurité (étiquettes) n'augmente pas le temps d'inférence. Le modèle gère quatre tâches concurrentes :

  • Classification de sécurité — sûr / dangereux pour les prompts utilisateur et les réponses du modèle
  • Détection de stratégie de jailbreak — 11 catégories (injection de prompt, contournement de jeu de rôle, override d'instruction, ingénierie sociale, etc.)
  • Détection de catégorie de nuisance — 14 catégories (violence, contenu sexuel, discours de haine, PII, désinformation, sécurité des enfants, violation de droits d'auteur, etc.)
  • Détection de refus — conformité ou refus, utilisé pour mesurer le sur-refus et la fausse conformité

Tous les quatre sont évalués ensemble, alors que les modèles décodeurs nécessiteraient des passes séquentielles ou plusieurs appels de modèle.

Benchmarks et performances

Sur neuf benchmarks de sécurité, GLiGuard égale ou dépasse des modèles 23 à 90 fois plus grands tout en étant jusqu'à 16 fois plus rapide. Aucun chiffre de précision spécifique n'est donné dans l'article, mais la performance est annoncée comme comparable aux garde-fous génératifs leaders.

À qui cela s'adresse

Équipes déployant des agents LLM ou des systèmes de chat ayant besoin d'un filtrage de sécurité en temps réel à faible latence et rentable à grande échelle.

📖 Lire la source complète : HN AI Agents

Ad

👀 See Also

Cowork vs. Claude Chat : Comparaison de la précision d'extraction de documents
Tools

Cowork vs. Claude Chat : Comparaison de la précision d'extraction de documents

Un développeur a testé Claude.ai chat et Cowork pour extraire des données de PDF financiers de plus de 140 pages en utilisant des invites identiques. Chat a produit des résultats de qualité institutionnelle avec auto-correction et zéro erreur sur plus de 150 points de données, tandis que Cowork a fabriqué des postes de réconciliation, inversé des décomptes d'unités et présenté une contamination des colonnes de l'année précédente.

OpenClawRadar
Arrêtez de réapprendre à Claude Code chaque session : utilisez une configuration persistante
Tools

Arrêtez de réapprendre à Claude Code chaque session : utilisez une configuration persistante

Un utilisateur de Reddit explique comment il a économisé 20 minutes par session en écrivant une config persistante pour Claude Code, éliminant les réorientations répétitives et obtenant des complétions 33 % plus rapides.

OpenClawRadar
Échafaudeur de Compétences : Créez des Compétences OpenClaw Sans Écrire de Code
Tools

Échafaudeur de Compétences : Créez des Compétences OpenClaw Sans Écrire de Code

Skill Scaffolder est un outil open-source qui permet aux utilisateurs de créer des compétences OpenClaw en décrivant ce qu'ils veulent en anglais simple. Il gère l'intégralité du processus—interroger les utilisateurs, écrire les fichiers de compétences, tester et installer—sans nécessiter de fichiers YAML, Python ou de configuration.

OpenClawRadar
Claude Code Ajoute une Fonction de Contrôle à Distance pour la Gestion des Sessions Mobiles
Tools

Claude Code Ajoute une Fonction de Contrôle à Distance pour la Gestion des Sessions Mobiles

Claude Code permet désormais aux développeurs de démarrer des tâches dans leur terminal et de continuer à contrôler les sessions depuis des appareils mobiles via l'application Claude ou claude.ai/code, tandis que Claude s'exécute localement sur leur machine.

OpenClawRadar