PromptForest: Detección de Inyección Local-Primero

PromptForest es una nueva biblioteca de primera local creada para abordar los problemas que comúnmente se observan con los detectores de inyección de comandos actuales. Su objetivo es detectar inyecciones de comandos y jailbreaks de manera eficiente y con un grado de incertidumbre para evitar la sobreconfianza en los resultados. Este enfoque la diferencia de los sistemas tradicionales, particularmente al mantener el rendimiento mientras proporciona salidas más matizadas.

Detalles Clave

Uno de los problemas fundamentales con los detectores de inyección existentes es la dependencia de modelos grandes como Llama 2 8B y Qualifire Sentinel 0.6B. Estos modelos no solo son lentos, sino que su sobreconfianza en los resultados puede llevar a falsos positivos que socavan su credibilidad en escenarios de producción. Reconociendo estas limitaciones, PromptForest aprovecha un método de ensamblaje de votación que comprende tres modelos más pequeños y especializados:

Llama Prompt Guard (86M): Ofrece el Error de Calibración Esperado (ECE) más alto en su categoría de peso.
Vijil Dome (ModernBERT): Proporciona la mayor precisión por parámetro.
XGBoost Personalizado: Entrenado en incrustaciones para diversidad arquitectónica.

Estos modelos utilizan colectivamente un método de votación suave ponderada para determinar los resultados, donde los modelos más precisos tienen mayor influencia. Este método simplifica la toma de decisiones mientras se mantiene alta precisión y consistencia.

El benchmarking muestra que PromptForest tiene una latencia media de ~141ms, en comparación con ~225ms para el Qualifire Sentinel v2, mientras ofrece una precisión comparable del 90% frente a su 97%. La calibración ECE también se desempeña bien en 0.070 frente a 0.096 del Sentinel. El rendimiento es impresionante también, con aproximadamente 27 comandos procesados por segundo en una GPU de consumo usando la herramienta pfranger.

Para pruebas e implementación, los desarrolladores pueden experimentar con PromptForest en Google Colab o auditar comandos con la herramienta PFRanger, que funciona completamente de manera local. PFRanger utiliza paralelización para mejorar la velocidad y el rendimiento.

📖 Lee la fuente completa: r/LocalLLaMA

PromptForest: Detección de Inyección de Prompts Local-Primero con Incertidumbre

Detalles Clave

👀 Ver también

Gremio OpenClaw: Servidor de agentes de IA multiusuario para equipos

ToolLoop: Marco de Agente de Código Abierto para Herramientas al Estilo Claude con Cualquier Modelo

LocalSynapse MCP Server Agrega Compatibilidad con macOS y Mejoras en la Búsqueda

AgentHandover: Aplicación de la barra de menú de Mac que crea habilidades de agente observando tu pantalla