GLiGuard : Modèle de modération open source 16x plus rapide

Fastino Labs a open-sourcé GLiGuard, un modèle de modération de sécurité qui remplace les garde-fous génératifs par une approche de classification. Le modèle encodeur de 300M paramètres gère quatre tâches de modération en une seule passe avant, atteignant une précision comparable aux modèles décodeurs de 7 à 27 milliards de paramètres tout en réduisant la latence jusqu'à 16 fois. Les poids sont disponibles sous licence Apache 2.0 sur Hugging Face, avec une inférence également disponible sur Pioneer.

Pourquoi les garde-fous basés sur décodeur sont lents

Les garde-fous actuels de pointe (par exemple, Llama Guard) utilisent des transformeurs à décodeur seul qui génèrent des verdicts token par token. Cette génération séquentielle les rend lents et coûteux pour un filtrage de sécurité en temps réel. La plupart évaluent également les dimensions de sécurité séparément, ce qui cumule la latence. Avec 7 à 27 milliards de paramètres, ces modèles sont coûteux à exécuter à l'échelle de production.

L'approche encodeur de GLiGuard

GLiGuard reformule la modération comme une classification de texte. Il encode à la fois le texte d'entrée et les étiquettes de tâche, notant toutes les étiquettes simultanément en un seul passage. Ajouter plus de dimensions de sécurité (étiquettes) n'augmente pas le temps d'inférence. Le modèle gère quatre tâches concurrentes :

Classification de sécurité — sûr / dangereux pour les prompts utilisateur et les réponses du modèle
Détection de stratégie de jailbreak — 11 catégories (injection de prompt, contournement de jeu de rôle, override d'instruction, ingénierie sociale, etc.)
Détection de catégorie de nuisance — 14 catégories (violence, contenu sexuel, discours de haine, PII, désinformation, sécurité des enfants, violation de droits d'auteur, etc.)
Détection de refus — conformité ou refus, utilisé pour mesurer le sur-refus et la fausse conformité

Tous les quatre sont évalués ensemble, alors que les modèles décodeurs nécessiteraient des passes séquentielles ou plusieurs appels de modèle.

Benchmarks et performances

Sur neuf benchmarks de sécurité, GLiGuard égale ou dépasse des modèles 23 à 90 fois plus grands tout en étant jusqu'à 16 fois plus rapide. Aucun chiffre de précision spécifique n'est donné dans l'article, mais la performance est annoncée comme comparable aux garde-fous génératifs leaders.

À qui cela s'adresse

Équipes déployant des agents LLM ou des systèmes de chat ayant besoin d'un filtrage de sécurité en temps réel à faible latence et rentable à grande échelle.

📖 Lire la source complète : HN AI Agents

GLiGuard : Modèle de modération de sécurité open source de 300M paramètres revendiquant un gain de vitesse 16x par rapport aux garde-fous LLM

Pourquoi les garde-fous basés sur décodeur sont lents

L'approche encodeur de GLiGuard

Benchmarks et performances

À qui cela s'adresse

👀 See Also

Mind Keg MCP : Mémoire persistante pour le code Claude et les agents compatibles MCP

Commandant de Flotte : Tableau de bord open-source pour orchestrer plusieurs équipes d'agents Claude Code

MoltMarket : Une plateforme pour embaucher des agents IA afin d'exécuter des tâches numériques

Démo Claude Fable : Correction proactive et implacable de bugs avec automatisation du navigateur