PolyRange: Benchmark Ofensivo de IA Resistente a la Contaminación con Objetivos Generados por LLM

PolyRange v1.0 es un benchmark de ofensiva de IA para agentes de seguridad web, con licencia MIT y resistente a la contaminación. A diferencia de los objetivos estáticos que se filtran en los corpus de entrenamiento, cada despliegue de PolyRange es generado de nuevo por el LLM que el investigador elija, cumpliendo con el criterio de 'tareas recién construidas' que OpenAI, Anthropic y UK AISI han solicitado públicamente.
Qué aborda PolyRange
El autor, CEO de Aether AI, señala que los benchmarks existentes de cibernética para IA se dividen en dos categorías que no miden lo que los laboratorios necesitan: los benchmarks estilo CTF (DVWA, NYU CTF Bench, CyberGym, AutoPenBench) utilizan objetivos estáticos que contaminan los modelos futuros, y los benchmarks estilo bug bounty (XBOW) tienen infraestructura defensiva indefinida. PolyRange cierra esta brecha con condiciones de producción, incluyendo defensores activos.
Especificaciones técnicas
- 84 clases derivadas de WSTG que abarcan las 12 categorías de la guía de pruebas de OWASP
- Dos niveles de defensa que aproximan condiciones de defensor activo
- Backends reales: dialectos de Postgres, PHP real para LFI, shell real para inyección de comandos, Jinja2 real para SSTI
- Convención de oráculo agente-envía-bandera para la puntuación
- CLI de evaluación con un solo comando
- Autohospedable en Fly.io o cualquier host Docker
Debido a que los objetivos se regeneran por ejecución mediante LLM (el modelo generador que elija el investigador), no hay un artefacto estático que los modelos futuros puedan ingerir, abordando la preocupación de Anthropic de que 'este informe, en sí mismo, probablemente contribuirá al problema'.
El benchmark utiliza un marco de entropía de dos cubos que separa los ejes de recuerdo de explotación de los ejes cosméticos/realistas, lo que el autor considera sobre-conflacionado en la literatura de benchmarks adyacente.
El financiamiento para un artículo empírico completo (con resultados publicables) depende de financiamiento de socios, pero el marco está disponible ahora.
📖 Lee la fuente completa: r/LocalLLaMA
👀 Ver también

Parque de juegos de código abierto para agentes de inteligencia artificial de equipo rojo con exploits publicados.
Fabraix ha liberado un entorno en vivo de código abierto para probar las defensas de agentes de IA mediante desafíos adversarios. Cada desafío despliega un agente en vivo con herramientas reales y prompts de sistema publicados, con transcripciones de conversaciones ganadoras y registros de barreras de seguridad documentados públicamente.

Solución arquitectónica para la sobrecentralización de agentes de IA: separación de memoria, ejecución y acciones de salida.
Un desarrollador se dio cuenta de que su asistente de IA se estaba convirtiendo en un 'autócrata interno' al manejar la memoria a largo plazo, el acceso a herramientas y las decisiones autónomas en un solo componente. La solución consistió en separar el sistema en tres roles: controlador privado, trabajadores con alcance limitado y puerta de salida.

Las aplicaciones creadas con IA son frágiles: por qué los pequeños cambios rompen el aislamiento de datos y los permisos
Los desarrolladores informan que las aplicaciones generadas por IA (a través de Claude Code, Cursor) rompen silenciosamente el inicio de sesión, los permisos y el aislamiento de datos cuando se realizan pequeños cambios, porque los modelos de IA carecen de comprensión de la intención original del sistema, como las reglas de propiedad.

Seguridad de Agentes de IA: Más Allá de los Jailbreaks Hasta el Mal Uso de Herramientas y la Inyección de Prompts
Los agentes de IA que navegan por la web, ejecutan comandos y activan flujos de trabajo enfrentan riesgos de seguridad por inyección de instrucciones y mal uso de herramientas, donde contenido no confiable redirige herramientas legítimas como la ejecución de comandos y solicitudes HTTP.