GLiGuard: Modelo de seguridad 16x más rápido con 300M parámetros

Fastino Labs ha publicado como código abierto GLiGuard, un modelo de moderación de seguridad que reemplaza las barreras generativas con un enfoque de clasificación. El modelo de codificador de 300 millones de parámetros maneja cuatro tareas de moderación en una sola pasada hacia adelante, logrando una precisión comparable a modelos decodificadores de 7B–27B parámetros y reduciendo la latencia hasta 16 veces. Los pesos están disponibles bajo Apache 2.0 en Hugging Face, y la inferencia también está disponible en Pioneer.

Por qué las barreras basadas en decodificadores son lentas

Las barreras de seguridad de última generación actuales (por ejemplo, Llama Guard) utilizan transformadores solo decodificadores que generan veredictos token por token. Esta generación secuencial las hace lentas y costosas para el filtrado de seguridad en tiempo real. La mayoría también evalúa dimensiones de seguridad por separado, lo que aumenta la latencia. Con 7B a 27B parámetros, estos modelos son costosos de ejecutar a escala de producción.

El enfoque de codificador de GLiGuard

GLiGuard replantea la moderación como clasificación de texto. Codifica tanto el texto de entrada como las etiquetas de tarea juntos, puntuando todas las etiquetas simultáneamente en una sola pasada. Agregar más dimensiones de seguridad (etiquetas) no aumenta el tiempo de inferencia. El modelo maneja cuatro tareas concurrentes:

Clasificación de seguridad — seguro / inseguro para avisos de usuario y respuestas del modelo
Detección de estrategia de jailbreak — 11 categorías (inyección de avisos, evasión de roles, anulación de instrucciones, ingeniería social, etc.)
Detección de categoría de daño — 14 categorías (violencia, contenido sexual, discurso de odio, PII, desinformación, seguridad infantil, violación de derechos de autor, etc.)
Detección de rechazo — cumplimiento o rechazo, utilizado para medir el exceso de rechazo y el falso cumplimiento

Todas las cuatro se evalúan juntas, mientras que los modelos decodificadores requerirían pasos secuenciales o múltiples llamadas al modelo.

Evaluaciones comparativas y rendimiento

En nueve pruebas comparativas de seguridad, GLiGuard iguala o supera a modelos 23–90 veces su tamaño mientras funciona hasta 16 veces más rápido. No se proporcionan cifras de precisión específicas en el artículo, pero se afirma que el rendimiento es comparable al de las barreras de seguridad generativas líderes.

Para quién es

Equipos que implementan agentes LLM o sistemas de chat que necesitan un filtrado de seguridad en tiempo real de baja latencia y rentable a escala.

📖 Leer la fuente completa: HN AI Agents

GLiGuard: Modelo de moderación de seguridad de 300M de parámetros de código abierto afirma una aceleración de 16x sobre las salvaguardas de LLM

Por qué las barreras basadas en decodificadores son lentas

El enfoque de codificador de GLiGuard

Evaluaciones comparativas y rendimiento

Para quién es

👀 Ver también

Optio: Orquestrando Agentes de Codificación con IA en Kubernetes desde el Ticket hasta la PR

civStation: Herramienta VLM de Código Abierto para el Control por Lenguaje Natural de Civilization VI

SoulPrint: Herramienta Local para Buscar Históricos de Claude y ChatGPT Juntos

OpenUtter: Consulta las transcripciones de Google Meet en vivo a través de OpenClaw