GLiGuard: Modelo de Moderação de Segurança de Código Aberto com 300 Milhões de Parâmetros Alega Aceleração de 16x sobre Barreiras de LLM

✍️ OpenClawRadar📅 Publicado: May 13, 2026🔗 Source
Ad

A Fastino Labs disponibilizou como código aberto o GLiGuard, um modelo de moderação de segurança que substitui guardrails generativos por uma abordagem de classificação. O modelo encoder de 300M de parâmetros lida com quatro tarefas de moderação em uma única passagem direta, alcançando precisão comparável a modelos decodificadores de 7B a 27B de parâmetros, enquanto reduz a latência em até 16x. Os pesos estão disponíveis sob licença Apache 2.0 no Hugging Face, e a inferência também está disponível no Pioneer.

Por que os guardrails baseados em decodificador são lentos

Os guardrails atuais do estado da arte (ex.: Llama Guard) usam transformers somente decodificadores que geram vereditos token por token. Essa geração sequencial os torna lentos e caros para filtragem de segurança em tempo real. A maioria também avalia dimensões de segurança separadamente, aumentando a latência. Com 7B a 27B de parâmetros, esses modelos são caros para executar em escala de produção.

Ad

Abordagem de encoder do GLiGuard

O GLiGuard reformula a moderação como classificação de texto. Ele codifica tanto o texto de entrada quanto os rótulos das tarefas juntos, pontuando todos os rótulos simultaneamente em uma única passagem. Adicionar mais dimensões de segurança (rótulos) não aumenta o tempo de inferência. O modelo lida com quatro tarefas concorrentes:

  • Classificação de segurança — seguro / inseguro para prompts de usuário e respostas do modelo
  • Detecção de estratégia de jailbreak — 11 categorias (injeção de prompt, bypass de roleplay, substituição de instrução, engenharia social, etc.)
  • Detecção de categoria de dano — 14 categorias (violência, conteúdo sexual, discurso de ódio, PII, desinformação, segurança infantil, violação de direitos autorais, etc.)
  • Detecção de recusa — conformidade ou recusa, usado para medir excesso de recusa e falsa conformidade

Todas as quatro são avaliadas juntas, enquanto modelos decodificadores exigiriam passes sequenciais ou múltiplas chamadas de modelo.

Benchmarks e desempenho

Em nove benchmarks de segurança, o GLiGuard iguala ou supera modelos 23 a 90 vezes maiores, sendo até 16 vezes mais rápido. Nenhum número específico de precisão é fornecido no post, mas o desempenho é reivindicado como comparável aos guardrails generativos líderes.

Para quem é

Equipes que implantam agentes LLM ou sistemas de chat que precisam de filtragem de segurança em tempo real, de baixa latência e econômica em escala.

📖 Leia a fonte completa: HN AI Agents

Ad

👀 See Also