Playground de código aberto para red-teaming de agentes de IA com exploits publicados

✍️ OpenClawRadar📅 Publicado: March 16, 2026🔗 Source

O que é isso

O Fabraix Playground é um ambiente de código aberto para testar agentes de IA através de desafios adversariais. Começou como uma ferramenta interna para testar proteções, mas foi disponibilizado publicamente para obter perspectivas diversas sobre vulnerabilidades.

Como funciona

Cada desafio implanta um agente de IA ativo com:

Uma persona específica
Um conjunto de ferramentas reais (pesquisa na web, navegação e mais)
Algo que foi instruído a proteger
Prompts de sistema totalmente visíveis

O objetivo é encontrar maneiras de contornar as proteções. Quando alguém consegue, a técnica vencedora é publicada — incluindo abordagem, raciocínio e transcrições completas da conversa.

Estrutura do projeto

/src — Interface React (TypeScript, Vite, Tailwind)
/challenges — configuração de cada desafio e prompt de sistema, versionados e abertos
Avaliação de proteções é executada no servidor para evitar manipulação no cliente
O runtime do agente está sendo disponibilizado separadamente

Desenvolvimento local

Para executar localmente:

npm install
npm run dev

Isso se conecta à API ativa por padrão. Para desenvolver com um backend local:

VITE_API_URL=http://localhost:8000/v1 npm run dev

Exemplos de desafios

O primeiro desafio foi fazer um agente chamar uma ferramenta que foi instruído a nunca chamar. Alguém conseguiu em cerca de 60 segundos sem pedir diretamente o segredo. O próximo desafio foca em exfiltração de dados com defesas mais difíceis.

A comunidade determina o que é testado: qualquer pessoa pode propor um desafio (cenário, agente, objetivo), a comunidade vota, e o desafio mais votado entra em funcionamento com um cronômetro. O jailbreak bem-sucedido mais rápido vence.

Detalhes técnicos

O projeto é construído com TypeScript (76,5%), CSS (22,2%) e outras linguagens (1,3%). Usa licença MIT e tem uma comunidade no Discord para discutir técnicas e compartilhar abordagens.

📖 Leia o Source completo: HN AI Agents

👀 See Also

Security

Avaliação da AISI Mostra as Capacidades Cibernéticas da Prévia do Claude Mythos em CTF e Ataques de Múltiplas Etapas

O Instituto de Segurança de IA avaliou a versão prévia do Claude Mythos da Anthropic, constatando que ele completou com sucesso 73% dos desafios de capturar a bandeira de nível especialista e resolveu uma simulação de ataque a uma rede corporativa de 32 etapas em 3 de 10 tentativas.

Apr 16, 2026, 07:45 PM UTC

OpenClawRadar

Security

ClawGuard: Gateway de Segurança de Código Aberto para Proteção de Credenciais da API OpenClaw

ClawGuard é um gateway de segurança que fica entre agentes de IA e APIs externas, usando credenciais fictícias na máquina do agente enquanto armazena tokens reais separadamente. Ele fornece aprovação via Telegram para chamadas sensíveis e mantém um registro de auditoria de solicitações.

Mar 2, 2026, 09:45 AM UTC

OpenClawRadar

Security

Scanner de Injeção de Prompt de Modelo Local para Segurança de Habilidades de IA

Uma ferramenta de prova de conceito varre habilidades de IA de terceiros em busca de injeções ocultas de comandos bash usando um modelo local sem chamada de ferramentas como mistral-small:latest no Ollama, abordando vulnerabilidades de segurança no recurso do operador ! do Claude Code.

Mar 20, 2026, 02:45 PM UTC

OpenClawRadar

Security

Claude Code --perigosamente-ignorar-permissões vulnerabilidade e ferramenta de defesa de código aberto

A Lasso Security publicou uma pesquisa mostrando vulnerabilidades de injeção indireta de prompt no Claude Code ao usar a flag --dangerously-skip-permissions, com vetores de ataque incluindo arquivos README envenenados, conteúdo web malicioso e saídas de servidores MCP. Eles lançaram um hook PostToolUse de código aberto que verifica as saídas de ferramentas contra mais de 50 padrões de detecção.

Mar 24, 2026, 11:45 PM UTC

OpenClawRadar