Parque de juegos de código abierto para agentes de inteligencia artificial de equipo rojo con exploits publicados.

✍️ OpenClawRadar📅 Publicado: 16 de marzo de 2026🔗 Source
Parque de juegos de código abierto para agentes de inteligencia artificial de equipo rojo con exploits publicados.
Ad

Qué es esto

Fabraix Playground es un entorno de código abierto para realizar pruebas de ataque (red-teaming) en agentes de IA mediante desafíos adversarios. Comenzó como una herramienta interna para probar barreras de seguridad, pero se liberó como código abierto para obtener perspectivas diversas sobre vulnerabilidades.

Cómo funciona

Cada desafío despliega un agente de IA en vivo con:

  • Una persona específica
  • Un conjunto de herramientas reales (búsqueda web, navegación y más)
  • Algo que se le ha instruido proteger
  • Prompts de sistema completamente visibles

El objetivo es encontrar formas de superar las barreras de seguridad. Cuando alguien tiene éxito, la técnica ganadora se publica, incluyendo el enfoque, el razonamiento y las transcripciones completas de la conversación.

Estructura del proyecto

  • /src — Interfaz frontend en React (TypeScript, Vite, Tailwind)
  • /challenges — cada configuración de desafío y prompt de sistema, versionado y abierto
  • Las evaluaciones de barreras de seguridad se ejecutan en el servidor para evitar manipulaciones del lado del cliente
  • El entorno de ejecución del agente se está liberando como código abierto por separado
Ad

Desarrollo local

Para ejecutar localmente:

npm install
npm run dev

Esto se conecta a la API en vivo por defecto. Para desarrollar contra un backend local:

VITE_API_URL=http://localhost:8000/v1 npm run dev

Ejemplos de desafíos

El primer desafío fue hacer que un agente llamara a una herramienta que se le dijo que nunca llamara. Alguien lo logró en aproximadamente 60 segundos sin pedir directamente el secreto. El próximo desafío se centra en la exfiltración de datos con defensas más difíciles.

La comunidad impulsa lo que se prueba: cualquiera puede proponer un desafío (escenario, agente, objetivo), la comunidad vota, y el desafío más votado se activa con un reloj en cuenta regresiva. El jailbreak exitoso más rápido gana.

Detalles técnicos

El proyecto está construido con TypeScript (76.5%), CSS (22.2%) y otros lenguajes (1.3%). Utiliza licencia MIT y tiene una comunidad de Discord para discutir técnicas y compartir enfoques.

📖 Leer la fuente completa: HN AI Agents

Ad

👀 Ver también

Endo Familiar: Entorno Aislado de Capacidad de Objetos para Agentes de IA
Seguridad

Endo Familiar: Entorno Aislado de Capacidad de Objetos para Agentes de IA

Endo Familiar implementa seguridad de capacidades de objetos para agentes de IA: los agentes comienzan con cero autoridad ambiental, reciben solo referencias explícitas a archivos o directorios específicos, y pueden derivar capacidades más restringidas en código sandbox.

OpenClawRadar
Google informa que el hackeo impulsado por IA alcanzó escala industrial en 3 meses
Seguridad

Google informa que el hackeo impulsado por IA alcanzó escala industrial en 3 meses

El grupo de inteligencia de amenazas de Google descubrió que grupos criminales y estatales están utilizando modelos de IA comerciales (Gemini, Claude, OpenAI) para refinar y escalar ataques. Un grupo casi aprovechó un día cero para una explotación masiva, y otros están experimentando con el agente OpenClaw sin restricciones.

OpenClawRadar
Explorando los riesgos del uso de la cuenta de Google con Gemini-Cli y la suscripción a Gemini Pro.
Seguridad

Explorando los riesgos del uso de la cuenta de Google con Gemini-Cli y la suscripción a Gemini Pro.

Gemini-Cli y tu suscripción a Gemini Pro pueden presentar algunos riesgos para tu cuenta de Google. Esto es lo que necesitas saber sobre las posibles vulnerabilidades al usar estas herramientas de IA.

OpenClawRadar
Enfoque de Seguridad OpenClaw Utilizando Router LLM y Compartición Privada zrok
Seguridad

Enfoque de Seguridad OpenClaw Utilizando Router LLM y Compartición Privada zrok

Un desarrollador comparte su enfoque para ejecutar OpenClaw y un enrutador LLM dentro de un entorno VM+Kubernetes con un solo comando, abordando preocupaciones de seguridad mediante la inyección de claves API a nivel del enrutador y usando zrok para compartir de forma privada en lugar de tokens tradicionales de aplicaciones de mensajería.

OpenClawRadar