Ataques em Agentes de IA: 91 Mil Interações Revelam Abuso de Ferramentas

Panorama de ameaças a partir de dados de agentes de IA em produção

Dados reais de ameaças de 91.284 interações de agentes de IA em 47 implantações mostram 35.711 ameaças detectadas em fevereiro de 2026. O modelo de detecção usa um classificador multilabel de 5 cabeças baseado em Gemma.

Principais ameaças para implantações auto-hospedadas

Abuso de ferramentas/comandos: Aumentou 6,4% para 14,5% das ameaças. O padrão dominante é a escalada da cadeia de ferramentas, onde uma chamada de leitura inofensiva é seguida por uma de escrita ou execução. A maioria das configurações locais dá aos agentes acesso a ferramentas sem salvaguardas suficientes.
Sequestro de objetivo do agente: Dobrou para 6,9% das ameaças. Tem como alvo a fase de planejamento em loops de agentes autônomos, particularmente relevante para configurações locais com menos monitoramento do estado do agente.
Envenenamento de RAG: Mudou para ataques de metadados em 12,0% (acima de 10,0%). O novo padrão tem como alvo metadados de documentos (títulos, autores, anotações) em vez do conteúdo. A maioria das pessoas sanitiza o conteúdo, mas passa os metadados como estão.
Injeção multimodal: Nova ameaça em 2,3%, onde instruções são ocultadas em imagens e PDFs. A verificação de segurança apenas de texto perde esses ataques.

Percentuais de detalhamento das ameaças

Exfiltração de Dados: 18,0% (-1,2 variação mensal)
Abuso de Ferramentas/Comandos: 14,5% (+6,4)
Ataque RAG/Contexto: 12,0% (+2,0)
Jailbreak: 11,0% (-1,3)
Injeção de Prompt: 8,1% (-0,7)
Sequestro de Objetivo do Agente: 6,9% (+3,3)
Ataque Inter-Agente: 5,0% (+1,6)

Abordagem de detecção

O pipeline de detecção usa duas camadas: L1 é correspondência de padrões com 218 regras (latência sub-ms, executa inteiramente localmente), e L2 é baseada em Gemma. A edição completa da comunidade é de código aberto em github.com/raxe-ai/raxe-ce.

📖 Leia a fonte completa: r/LocalLLaMA