Parque de juegos de código abierto para agentes de inteligencia artificial de equipo rojo con exploits publicados.

Qué es esto
Fabraix Playground es un entorno de código abierto para realizar pruebas de ataque (red-teaming) en agentes de IA mediante desafíos adversarios. Comenzó como una herramienta interna para probar barreras de seguridad, pero se liberó como código abierto para obtener perspectivas diversas sobre vulnerabilidades.
Cómo funciona
Cada desafío despliega un agente de IA en vivo con:
- Una persona específica
- Un conjunto de herramientas reales (búsqueda web, navegación y más)
- Algo que se le ha instruido proteger
- Prompts de sistema completamente visibles
El objetivo es encontrar formas de superar las barreras de seguridad. Cuando alguien tiene éxito, la técnica ganadora se publica, incluyendo el enfoque, el razonamiento y las transcripciones completas de la conversación.
Estructura del proyecto
/src— Interfaz frontend en React (TypeScript, Vite, Tailwind)/challenges— cada configuración de desafío y prompt de sistema, versionado y abierto- Las evaluaciones de barreras de seguridad se ejecutan en el servidor para evitar manipulaciones del lado del cliente
- El entorno de ejecución del agente se está liberando como código abierto por separado
Desarrollo local
Para ejecutar localmente:
npm install
npm run devEsto se conecta a la API en vivo por defecto. Para desarrollar contra un backend local:
VITE_API_URL=http://localhost:8000/v1 npm run devEjemplos de desafíos
El primer desafío fue hacer que un agente llamara a una herramienta que se le dijo que nunca llamara. Alguien lo logró en aproximadamente 60 segundos sin pedir directamente el secreto. El próximo desafío se centra en la exfiltración de datos con defensas más difíciles.
La comunidad impulsa lo que se prueba: cualquiera puede proponer un desafío (escenario, agente, objetivo), la comunidad vota, y el desafío más votado se activa con un reloj en cuenta regresiva. El jailbreak exitoso más rápido gana.
Detalles técnicos
El proyecto está construido con TypeScript (76.5%), CSS (22.2%) y otros lenguajes (1.3%). Utiliza licencia MIT y tiene una comunidad de Discord para discutir técnicas y compartir enfoques.
📖 Leer la fuente completa: HN AI Agents
👀 Ver también

Endo Familiar: Entorno Aislado de Capacidad de Objetos para Agentes de IA
Endo Familiar implementa seguridad de capacidades de objetos para agentes de IA: los agentes comienzan con cero autoridad ambiental, reciben solo referencias explícitas a archivos o directorios específicos, y pueden derivar capacidades más restringidas en código sandbox.

Google informa que el hackeo impulsado por IA alcanzó escala industrial en 3 meses
El grupo de inteligencia de amenazas de Google descubrió que grupos criminales y estatales están utilizando modelos de IA comerciales (Gemini, Claude, OpenAI) para refinar y escalar ataques. Un grupo casi aprovechó un día cero para una explotación masiva, y otros están experimentando con el agente OpenClaw sin restricciones.

Explorando los riesgos del uso de la cuenta de Google con Gemini-Cli y la suscripción a Gemini Pro.
Gemini-Cli y tu suscripción a Gemini Pro pueden presentar algunos riesgos para tu cuenta de Google. Esto es lo que necesitas saber sobre las posibles vulnerabilidades al usar estas herramientas de IA.

Enfoque de Seguridad OpenClaw Utilizando Router LLM y Compartición Privada zrok
Un desarrollador comparte su enfoque para ejecutar OpenClaw y un enrutador LLM dentro de un entorno VM+Kubernetes con un solo comando, abordando preocupaciones de seguridad mediante la inyección de claves API a nivel del enrutador y usando zrok para compartir de forma privada en lugar de tokens tradicionales de aplicaciones de mensajería.