Parque de juegos de código abierto para agentes de inteligencia artificial de equipo rojo con exploits publicados.

Qué es esto
Fabraix Playground es un entorno de código abierto para realizar pruebas de ataque (red-teaming) en agentes de IA mediante desafíos adversarios. Comenzó como una herramienta interna para probar barreras de seguridad, pero se liberó como código abierto para obtener perspectivas diversas sobre vulnerabilidades.
Cómo funciona
Cada desafío despliega un agente de IA en vivo con:
- Una persona específica
- Un conjunto de herramientas reales (búsqueda web, navegación y más)
- Algo que se le ha instruido proteger
- Prompts de sistema completamente visibles
El objetivo es encontrar formas de superar las barreras de seguridad. Cuando alguien tiene éxito, la técnica ganadora se publica, incluyendo el enfoque, el razonamiento y las transcripciones completas de la conversación.
Estructura del proyecto
/src— Interfaz frontend en React (TypeScript, Vite, Tailwind)/challenges— cada configuración de desafío y prompt de sistema, versionado y abierto- Las evaluaciones de barreras de seguridad se ejecutan en el servidor para evitar manipulaciones del lado del cliente
- El entorno de ejecución del agente se está liberando como código abierto por separado
Desarrollo local
Para ejecutar localmente:
npm install
npm run devEsto se conecta a la API en vivo por defecto. Para desarrollar contra un backend local:
VITE_API_URL=http://localhost:8000/v1 npm run devEjemplos de desafíos
El primer desafío fue hacer que un agente llamara a una herramienta que se le dijo que nunca llamara. Alguien lo logró en aproximadamente 60 segundos sin pedir directamente el secreto. El próximo desafío se centra en la exfiltración de datos con defensas más difíciles.
La comunidad impulsa lo que se prueba: cualquiera puede proponer un desafío (escenario, agente, objetivo), la comunidad vota, y el desafío más votado se activa con un reloj en cuenta regresiva. El jailbreak exitoso más rápido gana.
Detalles técnicos
El proyecto está construido con TypeScript (76.5%), CSS (22.2%) y otros lenguajes (1.3%). Utiliza licencia MIT y tiene una comunidad de Discord para discutir técnicas y compartir enfoques.
📖 Leer la fuente completa: HN AI Agents
👀 Ver también

El escaneo de seguridad revela un hallazgo de alta gravedad en la herramienta de búsqueda de habilidades del agente de IA.
Un desarrollador que ejecutó un análisis de seguridad en su configuración de agente de IA descubrió una vulnerabilidad de alta gravedad en la herramienta find-skills que utilizó para instalar habilidades adicionales, lo que generó preocupaciones sobre la seguridad del ecosistema.

Vulnerabilidades de Seguridad de la Función 'Permitir Siempre' de OpenClaw y Alternativas Más Seguras
La función de aprobación 'permitir siempre' de OpenClaw ha sido objeto de dos CVEs este mes, permitiendo la ejecución de comandos no autorizados mediante la vinculación de comandos wrapper y la omisión de continuación de línea en el shell. El problema más profundo es cómo esta función entrena a los usuarios para dejar de prestar atención a las solicitudes de seguridad.

Se Publica la Hoja de Trucos de Gestión de Superficie de Ataque de Código Abierto
Un desarrollador ha publicado una hoja de referencia de código abierto sobre Gestión de Superficie de Ataque que comenzó como notas personales y evolucionó hacia una referencia estructurada. El proyecto se centra en la implementación práctica de ASM en lugar de conceptos teóricos.

Verificador de SBOM sin conexión para OpenClaw detecta habilidades envenenadas en menos de 0,2 segundos
Un desarrollador creó una herramienta de verificación de SBOM sin conexión en Rust que detectó una habilidad envenenada de OpenClaw que exfiltraba claves SSH, completando la verificación en menos de 0.2 segundos sin acceso a internet.