GLiGuard: Modelo de moderación de seguridad de 300M de parámetros de código abierto afirma una aceleración de 16x sobre las salvaguardas de LLM

✍️ OpenClawRadar📅 Publicado: 13 de mayo de 2026🔗 Source
Ad

Fastino Labs ha publicado como código abierto GLiGuard, un modelo de moderación de seguridad que reemplaza las barreras generativas con un enfoque de clasificación. El modelo de codificador de 300 millones de parámetros maneja cuatro tareas de moderación en una sola pasada hacia adelante, logrando una precisión comparable a modelos decodificadores de 7B–27B parámetros y reduciendo la latencia hasta 16 veces. Los pesos están disponibles bajo Apache 2.0 en Hugging Face, y la inferencia también está disponible en Pioneer.

Por qué las barreras basadas en decodificadores son lentas

Las barreras de seguridad de última generación actuales (por ejemplo, Llama Guard) utilizan transformadores solo decodificadores que generan veredictos token por token. Esta generación secuencial las hace lentas y costosas para el filtrado de seguridad en tiempo real. La mayoría también evalúa dimensiones de seguridad por separado, lo que aumenta la latencia. Con 7B a 27B parámetros, estos modelos son costosos de ejecutar a escala de producción.

Ad

El enfoque de codificador de GLiGuard

GLiGuard replantea la moderación como clasificación de texto. Codifica tanto el texto de entrada como las etiquetas de tarea juntos, puntuando todas las etiquetas simultáneamente en una sola pasada. Agregar más dimensiones de seguridad (etiquetas) no aumenta el tiempo de inferencia. El modelo maneja cuatro tareas concurrentes:

  • Clasificación de seguridad — seguro / inseguro para avisos de usuario y respuestas del modelo
  • Detección de estrategia de jailbreak — 11 categorías (inyección de avisos, evasión de roles, anulación de instrucciones, ingeniería social, etc.)
  • Detección de categoría de daño — 14 categorías (violencia, contenido sexual, discurso de odio, PII, desinformación, seguridad infantil, violación de derechos de autor, etc.)
  • Detección de rechazo — cumplimiento o rechazo, utilizado para medir el exceso de rechazo y el falso cumplimiento

Todas las cuatro se evalúan juntas, mientras que los modelos decodificadores requerirían pasos secuenciales o múltiples llamadas al modelo.

Evaluaciones comparativas y rendimiento

En nueve pruebas comparativas de seguridad, GLiGuard iguala o supera a modelos 23–90 veces su tamaño mientras funciona hasta 16 veces más rápido. No se proporcionan cifras de precisión específicas en el artículo, pero se afirma que el rendimiento es comparable al de las barreras de seguridad generativas líderes.

Para quién es

Equipos que implementan agentes LLM o sistemas de chat que necesitan un filtrado de seguridad en tiempo real de baja latencia y rentable a escala.

📖 Leer la fuente completa: HN AI Agents

Ad

👀 Ver también

iknowkungfu Analizador de Habilidades Examina el Uso de OpenClaw para Recomendar Habilidades Faltantes
Herramientas

iknowkungfu Analizador de Habilidades Examina el Uso de OpenClaw para Recomendar Habilidades Faltantes

iknowkungfu es una nueva habilidad de OpenClaw que escanea el espacio de trabajo, archivos de memoria y registros de conversación de tu agente para identificar qué habilidades te faltan según tus patrones de uso reales. Proporciona recomendaciones específicas con puntuaciones de confianza y razones vinculadas a tu flujo de trabajo.

OpenClawRadar
Desarrollador Crea Herramienta para Generación Realista de Bases de Datos Relacionales
Herramientas

Desarrollador Crea Herramienta para Generación Realista de Bases de Datos Relacionales

Un desarrollador creó una herramienta que genera bases de datos relacionales completamente cargadas con datos realistas, resolviendo el problema de crear bases de datos de prueba con relaciones de clave externa intactas y consistencia entre tablas.

OpenClawRadar
Realizando pruebas locales de Qwen 3.6 27B como co-agente validador de Codex
Herramientas

Realizando pruebas locales de Qwen 3.6 27B como co-agente validador de Codex

Un desarrollador construyó un conjunto de pruebas reproducible para evaluar perfiles GGUF de Qwen 3.6 27B (llama.cpp) como validador auxiliar para Codex, encontrando que los perfiles de contexto de 128k son necesarios para tareas de contexto largo y que hay una pérdida mínima de precisión con caché KV q8.

OpenClawRadar
Interfaz de Usuario de Equipos de Agentes Claude: Aplicación de Escritorio para Visualizar Flujos de Trabajo de Agentes de Código Claude
Herramientas

Interfaz de Usuario de Equipos de Agentes Claude: Aplicación de Escritorio para Visualizar Flujos de Trabajo de Agentes de Código Claude

Un desarrollador creó una aplicación de escritorio gratuita y de código abierto que agrega una capa visual a la función experimental de Equipos de Agentes de Claude Code. La aplicación proporciona un tablero kanban en tiempo real donde las tareas se mueven automáticamente mientras los agentes trabajan, además de comunicación entre equipos, flujos de revisión integrados y revisión de código por tarea.

OpenClawRadar