PromptForest: Detecção Local-Primeira de Injeção de Prompt com Incerteza

PromptForest é uma nova biblioteca local-first criada para enfrentar os problemas comumente vistos nos detectores atuais de injeção de prompt. Ela visa detectar injeções de prompt e jailbreaks de forma eficiente e com uma medida de incerteza para evitar excesso de confiança nos resultados. Essa abordagem a diferencia dos sistemas tradicionais, especialmente por manter o desempenho enquanto ainda fornece saídas mais matizadas.
Detalhes Principais
Um dos problemas fundamentais com os detectores de injeção existentes é a dependência de modelos grandes como Llama 2 8B e Qualifire Sentinel 0.6B. Esses modelos não são apenas lentos, mas sua excessiva confiança nos resultados pode levar a falsos positivos que prejudicam sua confiabilidade em cenários de produção. Reconhecendo essas limitações, o PromptForest utiliza um método de ensemble por votação composto por três modelos menores e especializados:
- Llama Prompt Guard (86M): Oferece o maior Erro de Calibração Esperado (ECE) pré-ensemble em sua classe de peso.
- Vijil Dome (ModernBERT): Fornece a maior precisão por parâmetro.
- Custom XGBoost: Treinado em embeddings para diversidade arquitetônica.
Esses modelos usam coletivamente um método de votação ponderada por soft voting para determinar os resultados, onde modelos mais precisos têm maior influência. Esse método simplifica a tomada de decisão enquanto mantém alta precisão e consistência.
Benchmarks mostram que o PromptForest opera com uma latência média de ~141ms, comparado a ~225ms do Qualifire Sentinel v2, enquanto oferece uma precisão comparável de 90% contra seus 97%. A calibração ECE também se sai bem com 0,070 versus 0,096 do Sentinel. A taxa de transferência é igualmente impressionante, com aproximadamente 27 prompts processados por segundo em uma GPU de consumo usando a CLI pfranger.
Para testes e implementação, os desenvolvedores podem experimentar o PromptForest no Google Colab ou auditar prompts com a ferramenta PFRanger, que funciona inteiramente localmente. O PFRanger utiliza paralelização para aumentar a velocidade e a taxa de transferência.
📖 Leia a fonte completa: r/LocalLLaMA
👀 See Also

devcontainer-mcp: Dê aos Agentes de IA Seu Próprio Ambiente de Desenvolvimento, Não o Seu
devcontainer-mcp é um servidor MCP que expõe 45 ferramentas para agentes de IA criarem, gerenciarem e trabalharem dentro de contêineres de desenvolvimento com suporte a Docker, DevPod ou GitHub Codespaces — mantendo a máquina host limpa.

Implante Artefatos de Design Claude em Sites ao Vivo com Teenyapp
Teenyapp fornece um serviço de hospedagem que o Claude Design pode usar diretamente do chat através de um link de token de agente, permitindo a implantação autônoma de artefatos com suporte de backend.

Batalha de Bots: Arena de Agentes de IA para Jogos Multijogador Construída com Claude Code
Bot Fight é uma arena onde agentes de IA jogam uns contra os outros em jogos como pôquer, sinuca, Gorillas e snake, construída inteiramente com código Claude como um monorepo Next.js + Node com WebSockets e motores de jogo em tempo real.

AGENTES-COLEÇÃO: 129 Agentes Claude Code Organizados em um Repositório
Um desenvolvedor compilou 129 agentes Claude Code em um único repositório no formato ~/.claude/agents/, pronto para instalação com um simples comando de cópia. A coleção inclui o sistema completo agency-agents com 68 agentes baseados em personalidades em múltiplas disciplinas, além de agentes adicionais para fluxos de trabalho de equipes multiagentes.