GLiGuard: Modelo Open Source de 300M Parâmetros com Aceleração de 16x

A Fastino Labs disponibilizou como código aberto o GLiGuard, um modelo de moderação de segurança que substitui guardrails generativos por uma abordagem de classificação. O modelo encoder de 300M de parâmetros lida com quatro tarefas de moderação em uma única passagem direta, alcançando precisão comparável a modelos decodificadores de 7B a 27B de parâmetros, enquanto reduz a latência em até 16x. Os pesos estão disponíveis sob licença Apache 2.0 no Hugging Face, e a inferência também está disponível no Pioneer.

Por que os guardrails baseados em decodificador são lentos

Os guardrails atuais do estado da arte (ex.: Llama Guard) usam transformers somente decodificadores que geram vereditos token por token. Essa geração sequencial os torna lentos e caros para filtragem de segurança em tempo real. A maioria também avalia dimensões de segurança separadamente, aumentando a latência. Com 7B a 27B de parâmetros, esses modelos são caros para executar em escala de produção.

Abordagem de encoder do GLiGuard

O GLiGuard reformula a moderação como classificação de texto. Ele codifica tanto o texto de entrada quanto os rótulos das tarefas juntos, pontuando todos os rótulos simultaneamente em uma única passagem. Adicionar mais dimensões de segurança (rótulos) não aumenta o tempo de inferência. O modelo lida com quatro tarefas concorrentes:

Classificação de segurança — seguro / inseguro para prompts de usuário e respostas do modelo
Detecção de estratégia de jailbreak — 11 categorias (injeção de prompt, bypass de roleplay, substituição de instrução, engenharia social, etc.)
Detecção de categoria de dano — 14 categorias (violência, conteúdo sexual, discurso de ódio, PII, desinformação, segurança infantil, violação de direitos autorais, etc.)
Detecção de recusa — conformidade ou recusa, usado para medir excesso de recusa e falsa conformidade

Todas as quatro são avaliadas juntas, enquanto modelos decodificadores exigiriam passes sequenciais ou múltiplas chamadas de modelo.

Benchmarks e desempenho

Em nove benchmarks de segurança, o GLiGuard iguala ou supera modelos 23 a 90 vezes maiores, sendo até 16 vezes mais rápido. Nenhum número específico de precisão é fornecido no post, mas o desempenho é reivindicado como comparável aos guardrails generativos líderes.

Para quem é

Equipes que implantam agentes LLM ou sistemas de chat que precisam de filtragem de segurança em tempo real, de baixa latência e econômica em escala.

📖 Leia a fonte completa: HN AI Agents

GLiGuard: Modelo de Moderação de Segurança de Código Aberto com 300 Milhões de Parâmetros Alega Aceleração de 16x sobre Barreiras de LLM

Por que os guardrails baseados em decodificador são lentos

Abordagem de encoder do GLiGuard

Benchmarks e desempenho

Para quem é

👀 See Also

Forge: Um IDE baseado em Claude com verificação automatizada e DNA de projeto

Um Padrão para Executar Claude Code em Sessões Noturnas Não Supervisionadas Sem Desvio

Resultados de Benchmark: Quando Usar Claude Opus com Codex vs. Opus Puro para Geração de Código

A ferramenta Claude-context-lint audita a sobrecarga de tokens em projetos Claude Code.