PromptForest: Detección de Inyección de Prompts Local-Primero con Incertidumbre

PromptForest es una nueva biblioteca de primera local creada para abordar los problemas que comúnmente se observan con los detectores de inyección de comandos actuales. Su objetivo es detectar inyecciones de comandos y jailbreaks de manera eficiente y con un grado de incertidumbre para evitar la sobreconfianza en los resultados. Este enfoque la diferencia de los sistemas tradicionales, particularmente al mantener el rendimiento mientras proporciona salidas más matizadas.
Detalles Clave
Uno de los problemas fundamentales con los detectores de inyección existentes es la dependencia de modelos grandes como Llama 2 8B y Qualifire Sentinel 0.6B. Estos modelos no solo son lentos, sino que su sobreconfianza en los resultados puede llevar a falsos positivos que socavan su credibilidad en escenarios de producción. Reconociendo estas limitaciones, PromptForest aprovecha un método de ensamblaje de votación que comprende tres modelos más pequeños y especializados:
- Llama Prompt Guard (86M): Ofrece el Error de Calibración Esperado (ECE) más alto en su categoría de peso.
- Vijil Dome (ModernBERT): Proporciona la mayor precisión por parámetro.
- XGBoost Personalizado: Entrenado en incrustaciones para diversidad arquitectónica.
Estos modelos utilizan colectivamente un método de votación suave ponderada para determinar los resultados, donde los modelos más precisos tienen mayor influencia. Este método simplifica la toma de decisiones mientras se mantiene alta precisión y consistencia.
El benchmarking muestra que PromptForest tiene una latencia media de ~141ms, en comparación con ~225ms para el Qualifire Sentinel v2, mientras ofrece una precisión comparable del 90% frente a su 97%. La calibración ECE también se desempeña bien en 0.070 frente a 0.096 del Sentinel. El rendimiento es impresionante también, con aproximadamente 27 comandos procesados por segundo en una GPU de consumo usando la herramienta pfranger.
Para pruebas e implementación, los desarrolladores pueden experimentar con PromptForest en Google Colab o auditar comandos con la herramienta PFRanger, que funciona completamente de manera local. PFRanger utiliza paralelización para mejorar la velocidad y el rendimiento.
📖 Lee la fuente completa: r/LocalLLaMA
👀 Ver también

Motor de Contexto Agéntico: Bucle de Mejora Automatizada de Agentes con una Ganancia de Precisión del 34.2%
Una herramienta de código abierto automatiza todo el ciclo de mejora de agentes, desde el análisis de trazas hasta la implementación de correcciones, logrando una mejora del 34,2% en precisión en Tau-2 Bench en una sola iteración. El sistema utiliza Claude Code en un entorno REPL para analizar fallos y decidir entre correcciones de prompt o de código.

Beacon: Telemetría de Punto Final de Código Abierto para Agentes de IA Locales
Beacon captura la actividad local de agentes de IA (Claude Code, Codex CLI, Cursor, etc.) y la normaliza en eventos de endpoint para inspección o reenvío a SIEM mediante Wazuh, Elastic, Splunk HEC.

¿Por qué los flujos de trabajo deterministas superan a la orquestación impulsada por IA para sistemas de agentes?
Un desarrollador con un año de experiencia construyendo sistemas de agentes comparte que la orquestación impulsada por IA falló consistentemente debido al enrutamiento no determinista, errores acumulativos, explosión de costos y depuración imposible. Cambiar a flujos de trabajo deterministas con orquestación basada en código eliminó los fallos de orquestación.

Complemento de Memoria Compartida OpenClaw: Coordinación Multi-Agente Basada en SQLite
Un desarrollador creó un complemento para configuraciones multiagente de OpenClaw que permite a los agentes compartir memoria usando SQLite, eliminando la necesidad de servicios externos. El complemento permite compartir memoria explícitamente mediante una herramienta, extracción automática de contexto, control de acceso, seguimiento de entidades y detección de contradicciones.