Playground de código aberto para red-teaming de agentes de IA com exploits publicados

O que é isso
O Fabraix Playground é um ambiente de código aberto para testar agentes de IA através de desafios adversariais. Começou como uma ferramenta interna para testar proteções, mas foi disponibilizado publicamente para obter perspectivas diversas sobre vulnerabilidades.
Como funciona
Cada desafio implanta um agente de IA ativo com:
- Uma persona específica
- Um conjunto de ferramentas reais (pesquisa na web, navegação e mais)
- Algo que foi instruído a proteger
- Prompts de sistema totalmente visíveis
O objetivo é encontrar maneiras de contornar as proteções. Quando alguém consegue, a técnica vencedora é publicada — incluindo abordagem, raciocínio e transcrições completas da conversa.
Estrutura do projeto
/src— Interface React (TypeScript, Vite, Tailwind)/challenges— configuração de cada desafio e prompt de sistema, versionados e abertos- Avaliação de proteções é executada no servidor para evitar manipulação no cliente
- O runtime do agente está sendo disponibilizado separadamente
Desenvolvimento local
Para executar localmente:
npm install
npm run devIsso se conecta à API ativa por padrão. Para desenvolver com um backend local:
VITE_API_URL=http://localhost:8000/v1 npm run devExemplos de desafios
O primeiro desafio foi fazer um agente chamar uma ferramenta que foi instruído a nunca chamar. Alguém conseguiu em cerca de 60 segundos sem pedir diretamente o segredo. O próximo desafio foca em exfiltração de dados com defesas mais difíceis.
A comunidade determina o que é testado: qualquer pessoa pode propor um desafio (cenário, agente, objetivo), a comunidade vota, e o desafio mais votado entra em funcionamento com um cronômetro. O jailbreak bem-sucedido mais rápido vence.
Detalhes técnicos
O projeto é construído com TypeScript (76,5%), CSS (22,2%) e outras linguagens (1,3%). Usa licença MIT e tem uma comunidade no Discord para discutir técnicas e compartilhar abordagens.
📖 Leia o Source completo: HN AI Agents
👀 See Also

Alerta de Segurança: Código Malicioso no LiteLLM Pode Roubar Chaves de API
Uma vulnerabilidade crítica de segurança foi identificada no LiteLLM que poderia expor chaves de API. Usuários do OpenClaw ou do nanobot podem ser afetados e devem verificar os problemas do GitHub vinculados na fonte.

Integração do Agente SOC OpenClaw para Busca de Ameaças em Laboratório Doméstico SIEM
Um usuário do Reddit compartilha sua configuração de SIEM de código aberto chamada Red Threat Redemption no Debian 13, integrando Elasticsearch, Kibana, Wazuh, Zeek e pfSense com Suricata, e depois adiciona um agente de IA para correlação automatizada de ameaças, busca por ameaças e triagem de alertas.

Proxy McpVanguard Bloqueia Exfiltração de Dados da Habilidade OpenClaw
Um desenvolvedor criou o McpVanguard, um proxy que fica entre os agentes de IA e suas ferramentas para bloquear cadeias de chamadas maliciosas, como exfiltração de dados, em resposta à descoberta da Cisco de que habilidades do OpenClaw realizavam roubo silencioso de dados. Ele usa correspondência de padrões, pontuação de intenção semântica e detecção de cadeias comportamentais.

Avaliação da AISI Mostra as Capacidades Cibernéticas da Prévia do Claude Mythos em CTF e Ataques de Múltiplas Etapas
O Instituto de Segurança de IA avaliou a versão prévia do Claude Mythos da Anthropic, constatando que ele completou com sucesso 73% dos desafios de capturar a bandeira de nível especialista e resolveu uma simulação de ataque a uma rede corporativa de 32 etapas em 3 de 10 tentativas.