PolyRange v1.0: Benchmark de IA cibernética generado por LLM

PolyRange v1.0 es un benchmark de ofensiva de IA para agentes de seguridad web, con licencia MIT y resistente a la contaminación. A diferencia de los objetivos estáticos que se filtran en los corpus de entrenamiento, cada despliegue de PolyRange es generado de nuevo por el LLM que el investigador elija, cumpliendo con el criterio de 'tareas recién construidas' que OpenAI, Anthropic y UK AISI han solicitado públicamente.

Qué aborda PolyRange

El autor, CEO de Aether AI, señala que los benchmarks existentes de cibernética para IA se dividen en dos categorías que no miden lo que los laboratorios necesitan: los benchmarks estilo CTF (DVWA, NYU CTF Bench, CyberGym, AutoPenBench) utilizan objetivos estáticos que contaminan los modelos futuros, y los benchmarks estilo bug bounty (XBOW) tienen infraestructura defensiva indefinida. PolyRange cierra esta brecha con condiciones de producción, incluyendo defensores activos.

Especificaciones técnicas

84 clases derivadas de WSTG que abarcan las 12 categorías de la guía de pruebas de OWASP
Dos niveles de defensa que aproximan condiciones de defensor activo
Backends reales: dialectos de Postgres, PHP real para LFI, shell real para inyección de comandos, Jinja2 real para SSTI
Convención de oráculo agente-envía-bandera para la puntuación
CLI de evaluación con un solo comando
Autohospedable en Fly.io o cualquier host Docker

Debido a que los objetivos se regeneran por ejecución mediante LLM (el modelo generador que elija el investigador), no hay un artefacto estático que los modelos futuros puedan ingerir, abordando la preocupación de Anthropic de que 'este informe, en sí mismo, probablemente contribuirá al problema'.

El benchmark utiliza un marco de entropía de dos cubos que separa los ejes de recuerdo de explotación de los ejes cosméticos/realistas, lo que el autor considera sobre-conflacionado en la literatura de benchmarks adyacente.

El financiamiento para un artículo empírico completo (con resultados publicables) depende de financiamiento de socios, pero el marco está disponible ahora.

📖 Lee la fuente completa: r/LocalLLaMA

PolyRange: Benchmark Ofensivo de IA Resistente a la Contaminación con Objetivos Generados por LLM

Qué aborda PolyRange

Especificaciones técnicas

👀 Ver también

Chatbot Claude explotado en violación de datos del gobierno mexicano

Brecha de seguridad de OpenClaw: 42,000 instancias expuestas.

Las reglas estrictas de solo lectura en los archivos de habilidades son instrucciones, no obligaciones

Axios 1.14.1 comprometido con malware, apunta a flujos de trabajo de desarrollo asistidos por IA.