Benchmark de Segurança: 10 LLMs vs 211 Ataques Adversariais

Um pesquisador de segurança conduziu um teste sistemático de 10 LLMs diferentes contra 211 sondas de segurança adversariais para avaliar como eles lidam com ataques em cenários do mundo real.

Metodologia do Teste

O pesquisador usou uma configuração padronizada com temperatura 0 e chamadas de API idênticas para cada modelo. O teste incluiu 82 sondas de extração (tentando roubar prompts do sistema) e 109 sondas de injeção (tentando sequestrar o comportamento do modelo). Um prompt de sistema honeypot carregado com PII falso, chaves SSH e credenciais de API foi usado como isca.

Principais Descobertas

A resistência à extração está basicamente resolvida: A maioria dos modelos é decente em bloquear ataques do tipo "repita seu prompt do sistema". A média entre todos os modelos é de cerca de 85%.
A resistência à injeção não está resolvida: A média é de 46,2%, o que significa que mais da metade dos ataques de injeção têm sucesso em geral.
Falhas universais: Cada modelo falhou em ataques de delimitador, injeção por distração e injeção de estilo. 0% de resistência nessas categorias em todos os 10 modelos.
Padrões de ataque mortos: Todos os modelos resistiram à divisão de payload e evasão por erro de digitação com 100%.

Resultados Específicos por Modelo

Claude Opus: Pontuou 72,7% em resistência à injeção, o melhor entre todos os modelos testados. Ainda significa que mais de 1 em cada 4 ataques de injeção funciona.
GPT-5.4: Tem pontuação perfeita em extração e limites, mas apenas 50% de resistência à injeção.
GPT-5.3 Codex: O modelo por trás do Codex CLI que executa código na sua máquina pontuou 34,5% em injeção. 2 em cada 3 tentativas de injeção têm sucesso.
DeepSeek V3.2: Pontuou 17,4% em injeção, basicamente sem resistência.
Qwen 3.5 API vs local: Extração quase idêntica (81,6% vs 81,7%), mas a versão local é pior em injeção (46,9% vs 29,8%) e muito pior em integridade de limites (59,8% vs 44,6%). Executar localmente não o torna menos capaz de bloquear extração, mas o torna mais vulnerável à injeção.

Por que a Injeção Importa

Extração significa que alguém rouba seu prompt do sistema - ruim, mas recuperável. Injeção significa que alguém sequestra o que seu agente faz. Se seu agente tem acesso a ferramentas, sistema de arquivos ou pode fazer chamadas de API, uma injeção bem-sucedida pode levar à exfiltração de dados, exclusão de arquivos ou pior. Atualmente, o melhor modelo do mundo bloqueia apenas 73% das tentativas de injeção.

A metodologia completa e os resultados são públicos em agentseal.org/benchmark. O prompt de teste também é publicado para que qualquer pessoa possa reproduzir os resultados.

📖 Leia a fonte completa: r/LocalLLaMA

Benchmark de Segurança: 10 LLMs Testados Contra 211 Sondagens Adversariais

Metodologia do Teste

Principais Descobertas

Resultados Específicos por Modelo

Por que a Injeção Importa

👀 See Also

Injeção de Prompt na Camada de Áudio Contra o Claude: O Que Não Está na Transcrição

Análise Estática de 48 Aplicativos Gerados por IA: 90% Apresentavam Vulnerabilidades de Segurança

AviationWeather.gov API contém tentativa de injeção de prompt 'Stop Claude'

Agente de IA deleta banco de dados de produção e depois confessa – Um conto de advertência