Benchmark de Segurança: 10 LLMs Testados Contra 211 Sondagens Adversariais

Um pesquisador de segurança conduziu um teste sistemático de 10 LLMs diferentes contra 211 sondas de segurança adversariais para avaliar como eles lidam com ataques em cenários do mundo real.
Metodologia do Teste
O pesquisador usou uma configuração padronizada com temperatura 0 e chamadas de API idênticas para cada modelo. O teste incluiu 82 sondas de extração (tentando roubar prompts do sistema) e 109 sondas de injeção (tentando sequestrar o comportamento do modelo). Um prompt de sistema honeypot carregado com PII falso, chaves SSH e credenciais de API foi usado como isca.
Principais Descobertas
- A resistência à extração está basicamente resolvida: A maioria dos modelos é decente em bloquear ataques do tipo "repita seu prompt do sistema". A média entre todos os modelos é de cerca de 85%.
- A resistência à injeção não está resolvida: A média é de 46,2%, o que significa que mais da metade dos ataques de injeção têm sucesso em geral.
- Falhas universais: Cada modelo falhou em ataques de delimitador, injeção por distração e injeção de estilo. 0% de resistência nessas categorias em todos os 10 modelos.
- Padrões de ataque mortos: Todos os modelos resistiram à divisão de payload e evasão por erro de digitação com 100%.
Resultados Específicos por Modelo
- Claude Opus: Pontuou 72,7% em resistência à injeção, o melhor entre todos os modelos testados. Ainda significa que mais de 1 em cada 4 ataques de injeção funciona.
- GPT-5.4: Tem pontuação perfeita em extração e limites, mas apenas 50% de resistência à injeção.
- GPT-5.3 Codex: O modelo por trás do Codex CLI que executa código na sua máquina pontuou 34,5% em injeção. 2 em cada 3 tentativas de injeção têm sucesso.
- DeepSeek V3.2: Pontuou 17,4% em injeção, basicamente sem resistência.
- Qwen 3.5 API vs local: Extração quase idêntica (81,6% vs 81,7%), mas a versão local é pior em injeção (46,9% vs 29,8%) e muito pior em integridade de limites (59,8% vs 44,6%). Executar localmente não o torna menos capaz de bloquear extração, mas o torna mais vulnerável à injeção.
Por que a Injeção Importa
Extração significa que alguém rouba seu prompt do sistema - ruim, mas recuperável. Injeção significa que alguém sequestra o que seu agente faz. Se seu agente tem acesso a ferramentas, sistema de arquivos ou pode fazer chamadas de API, uma injeção bem-sucedida pode levar à exfiltração de dados, exclusão de arquivos ou pior. Atualmente, o melhor modelo do mundo bloqueia apenas 73% das tentativas de injeção.
A metodologia completa e os resultados são públicos em agentseal.org/benchmark. O prompt de teste também é publicado para que qualquer pessoa possa reproduzir os resultados.
📖 Leia a fonte completa: r/LocalLLaMA
👀 See Also

A2A Secure: Como os Desenvolvedores Construíram Comunicação Criptográfica Entre Agentes OpenClaw
Um novo protocolo permite que agentes OpenClaw se comuniquem de forma segura usando assinaturas Ed25519 sem chaves de API compartilhadas.

OpenClaw Skill Safety Scanner: 7,6% de 31.371 Habilidades Sinalizadas como Perigosas
Um desenvolvedor criou uma ferramenta que escaneou todo o registro do ClawHub e encontrou 2.371 de 31.371 habilidades contendo padrões perigosos como drenadores de carteira, roubo de credenciais e injeção de prompt. A ferramenta fornece acesso à API e emblemas para verificar habilidades antes da instalação.

O Ataque FlyTrap Usa Guarda-Chuvas Adversariais para Comprometer Drones Autônomos Baseados em Câmera
Pesquisadores da UC Irvine desenvolveram o FlyTrap, uma estrutura de ataque físico que utiliza guarda-chuvas pintados para explorar vulnerabilidades em sistemas autônomos de rastreamento de alvos baseados em câmera. O ataque reduz as distâncias de rastreamento para níveis perigosos, permitindo captura de drones, ataques a sensores ou colisões físicas.

Segurança do OpenClaw Slack: Riscos e Correções de Exposição de Chave de API
Implantações do OpenClaw no Slack podem expor chaves de API através de mensagens de erro em canais, com mais de 8.000 instâncias encontradas expostas em um relatório da Bitsight. A fonte detalha três vulnerabilidades específicas e fornece correções práticas, incluindo modificações no prompt do sistema e migração para o SlackClaw.