Prueba defensas IA: Entorno open source para equipo rojo

Qué es esto

Fabraix Playground es un entorno de código abierto para realizar pruebas de ataque (red-teaming) en agentes de IA mediante desafíos adversarios. Comenzó como una herramienta interna para probar barreras de seguridad, pero se liberó como código abierto para obtener perspectivas diversas sobre vulnerabilidades.

Cómo funciona

Cada desafío despliega un agente de IA en vivo con:

Una persona específica
Un conjunto de herramientas reales (búsqueda web, navegación y más)
Algo que se le ha instruido proteger
Prompts de sistema completamente visibles

El objetivo es encontrar formas de superar las barreras de seguridad. Cuando alguien tiene éxito, la técnica ganadora se publica, incluyendo el enfoque, el razonamiento y las transcripciones completas de la conversación.

Estructura del proyecto

/src — Interfaz frontend en React (TypeScript, Vite, Tailwind)
/challenges — cada configuración de desafío y prompt de sistema, versionado y abierto
Las evaluaciones de barreras de seguridad se ejecutan en el servidor para evitar manipulaciones del lado del cliente
El entorno de ejecución del agente se está liberando como código abierto por separado

Desarrollo local

Para ejecutar localmente:

npm install
npm run dev

Esto se conecta a la API en vivo por defecto. Para desarrollar contra un backend local:

VITE_API_URL=http://localhost:8000/v1 npm run dev

Ejemplos de desafíos

El primer desafío fue hacer que un agente llamara a una herramienta que se le dijo que nunca llamara. Alguien lo logró en aproximadamente 60 segundos sin pedir directamente el secreto. El próximo desafío se centra en la exfiltración de datos con defensas más difíciles.

La comunidad impulsa lo que se prueba: cualquiera puede proponer un desafío (escenario, agente, objetivo), la comunidad vota, y el desafío más votado se activa con un reloj en cuenta regresiva. El jailbreak exitoso más rápido gana.

Detalles técnicos

El proyecto está construido con TypeScript (76.5%), CSS (22.2%) y otros lenguajes (1.3%). Utiliza licencia MIT y tiene una comunidad de Discord para discutir técnicas y compartir enfoques.

📖 Leer la fuente completa: HN AI Agents

Parque de juegos de código abierto para agentes de inteligencia artificial de equipo rojo con exploits publicados.

Qué es esto

Cómo funciona

Estructura del proyecto

Desarrollo local

Ejemplos de desafíos

Detalles técnicos

👀 Ver también

El ataque de cadena de suministro utiliza código Unicode invisible para evadir la detección.

La defensa de delimitadores eleva a Gemma 4 del 21% al 100% en defensa contra inyección de prompts en más de 6100 pruebas de referencia

Los modelos Claude son vulnerables al secuestro mediante caracteres Unicode invisibles, especialmente con acceso a herramientas.

Los Guardarrieles de los Agentes de IA se Deterioran con el Tiempo sin Mantenimiento Activo