Detecção Local-Primeira de Injeção de Prompt: PromptForest

PromptForest é uma nova biblioteca local-first criada para enfrentar os problemas comumente vistos nos detectores atuais de injeção de prompt. Ela visa detectar injeções de prompt e jailbreaks de forma eficiente e com uma medida de incerteza para evitar excesso de confiança nos resultados. Essa abordagem a diferencia dos sistemas tradicionais, especialmente por manter o desempenho enquanto ainda fornece saídas mais matizadas.

Detalhes Principais

Um dos problemas fundamentais com os detectores de injeção existentes é a dependência de modelos grandes como Llama 2 8B e Qualifire Sentinel 0.6B. Esses modelos não são apenas lentos, mas sua excessiva confiança nos resultados pode levar a falsos positivos que prejudicam sua confiabilidade em cenários de produção. Reconhecendo essas limitações, o PromptForest utiliza um método de ensemble por votação composto por três modelos menores e especializados:

Llama Prompt Guard (86M): Oferece o maior Erro de Calibração Esperado (ECE) pré-ensemble em sua classe de peso.
Vijil Dome (ModernBERT): Fornece a maior precisão por parâmetro.
Custom XGBoost: Treinado em embeddings para diversidade arquitetônica.

Esses modelos usam coletivamente um método de votação ponderada por soft voting para determinar os resultados, onde modelos mais precisos têm maior influência. Esse método simplifica a tomada de decisão enquanto mantém alta precisão e consistência.

Benchmarks mostram que o PromptForest opera com uma latência média de ~141ms, comparado a ~225ms do Qualifire Sentinel v2, enquanto oferece uma precisão comparável de 90% contra seus 97%. A calibração ECE também se sai bem com 0,070 versus 0,096 do Sentinel. A taxa de transferência é igualmente impressionante, com aproximadamente 27 prompts processados por segundo em uma GPU de consumo usando a CLI pfranger.

Para testes e implementação, os desenvolvedores podem experimentar o PromptForest no Google Colab ou auditar prompts com a ferramenta PFRanger, que funciona inteiramente localmente. O PFRanger utiliza paralelização para aumentar a velocidade e a taxa de transferência.

📖 Leia a fonte completa: r/LocalLLaMA

PromptForest: Detecção Local-Primeira de Injeção de Prompt com Incerteza

Detalhes Principais

👀 See Also

Steerling-8B: Um Modelo de Linguagem Interpretável com Atribuição em Nível de Token

GLM-5-Turbo Apresenta Baixa Taxa de Erro em Chamadas de Ferramentas em Testes com Usuários

Explorando o LiveDocs: Um Notebook de Análise de Dados Nativamente em IA

Nyx: Plataforma Autônoma de Testes para Agentes de IA