PromptForest: Detecção Local-Primeira de Injeção de Prompt com Incerteza

✍️ OpenClawRadar📅 Publicado: February 14, 2026🔗 Source
PromptForest: Detecção Local-Primeira de Injeção de Prompt com Incerteza
Ad

PromptForest é uma nova biblioteca local-first criada para enfrentar os problemas comumente vistos nos detectores atuais de injeção de prompt. Ela visa detectar injeções de prompt e jailbreaks de forma eficiente e com uma medida de incerteza para evitar excesso de confiança nos resultados. Essa abordagem a diferencia dos sistemas tradicionais, especialmente por manter o desempenho enquanto ainda fornece saídas mais matizadas.

Ad

Detalhes Principais

Um dos problemas fundamentais com os detectores de injeção existentes é a dependência de modelos grandes como Llama 2 8B e Qualifire Sentinel 0.6B. Esses modelos não são apenas lentos, mas sua excessiva confiança nos resultados pode levar a falsos positivos que prejudicam sua confiabilidade em cenários de produção. Reconhecendo essas limitações, o PromptForest utiliza um método de ensemble por votação composto por três modelos menores e especializados:

  • Llama Prompt Guard (86M): Oferece o maior Erro de Calibração Esperado (ECE) pré-ensemble em sua classe de peso.
  • Vijil Dome (ModernBERT): Fornece a maior precisão por parâmetro.
  • Custom XGBoost: Treinado em embeddings para diversidade arquitetônica.

Esses modelos usam coletivamente um método de votação ponderada por soft voting para determinar os resultados, onde modelos mais precisos têm maior influência. Esse método simplifica a tomada de decisão enquanto mantém alta precisão e consistência.

Benchmarks mostram que o PromptForest opera com uma latência média de ~141ms, comparado a ~225ms do Qualifire Sentinel v2, enquanto oferece uma precisão comparável de 90% contra seus 97%. A calibração ECE também se sai bem com 0,070 versus 0,096 do Sentinel. A taxa de transferência é igualmente impressionante, com aproximadamente 27 prompts processados por segundo em uma GPU de consumo usando a CLI pfranger.

Para testes e implementação, os desenvolvedores podem experimentar o PromptForest no Google Colab ou auditar prompts com a ferramenta PFRanger, que funciona inteiramente localmente. O PFRanger utiliza paralelização para aumentar a velocidade e a taxa de transferência.

📖 Leia a fonte completa: r/LocalLLaMA

Ad

👀 See Also

devcontainer-mcp: Dê aos Agentes de IA Seu Próprio Ambiente de Desenvolvimento, Não o Seu
Tools

devcontainer-mcp: Dê aos Agentes de IA Seu Próprio Ambiente de Desenvolvimento, Não o Seu

devcontainer-mcp é um servidor MCP que expõe 45 ferramentas para agentes de IA criarem, gerenciarem e trabalharem dentro de contêineres de desenvolvimento com suporte a Docker, DevPod ou GitHub Codespaces — mantendo a máquina host limpa.

OpenClawRadar
Implante Artefatos de Design Claude em Sites ao Vivo com Teenyapp
Tools

Implante Artefatos de Design Claude em Sites ao Vivo com Teenyapp

Teenyapp fornece um serviço de hospedagem que o Claude Design pode usar diretamente do chat através de um link de token de agente, permitindo a implantação autônoma de artefatos com suporte de backend.

OpenClawRadar
Batalha de Bots: Arena de Agentes de IA para Jogos Multijogador Construída com Claude Code
Tools

Batalha de Bots: Arena de Agentes de IA para Jogos Multijogador Construída com Claude Code

Bot Fight é uma arena onde agentes de IA jogam uns contra os outros em jogos como pôquer, sinuca, Gorillas e snake, construída inteiramente com código Claude como um monorepo Next.js + Node com WebSockets e motores de jogo em tempo real.

OpenClawRadar
AGENTES-COLEÇÃO: 129 Agentes Claude Code Organizados em um Repositório
Tools

AGENTES-COLEÇÃO: 129 Agentes Claude Code Organizados em um Repositório

Um desenvolvedor compilou 129 agentes Claude Code em um único repositório no formato ~/.claude/agents/, pronto para instalação com um simples comando de cópia. A coleção inclui o sistema completo agency-agents com 68 agentes baseados em personalidades em múltiplas disciplinas, além de agentes adicionais para fluxos de trabalho de equipes multiagentes.

OpenClawRadar