Dados de ameaça de 91 mil interações com agentes de IA: abuso de ferramentas aumentou 6,4%, novos ataques multimodais

✍️ OpenClawRadar📅 Publicado: February 24, 2026🔗 Source
Dados de ameaça de 91 mil interações com agentes de IA: abuso de ferramentas aumentou 6,4%, novos ataques multimodais
Ad

Panorama de ameaças a partir de dados de agentes de IA em produção

Dados reais de ameaças de 91.284 interações de agentes de IA em 47 implantações mostram 35.711 ameaças detectadas em fevereiro de 2026. O modelo de detecção usa um classificador multilabel de 5 cabeças baseado em Gemma.

Principais ameaças para implantações auto-hospedadas

  • Abuso de ferramentas/comandos: Aumentou 6,4% para 14,5% das ameaças. O padrão dominante é a escalada da cadeia de ferramentas, onde uma chamada de leitura inofensiva é seguida por uma de escrita ou execução. A maioria das configurações locais dá aos agentes acesso a ferramentas sem salvaguardas suficientes.
  • Sequestro de objetivo do agente: Dobrou para 6,9% das ameaças. Tem como alvo a fase de planejamento em loops de agentes autônomos, particularmente relevante para configurações locais com menos monitoramento do estado do agente.
  • Envenenamento de RAG: Mudou para ataques de metadados em 12,0% (acima de 10,0%). O novo padrão tem como alvo metadados de documentos (títulos, autores, anotações) em vez do conteúdo. A maioria das pessoas sanitiza o conteúdo, mas passa os metadados como estão.
  • Injeção multimodal: Nova ameaça em 2,3%, onde instruções são ocultadas em imagens e PDFs. A verificação de segurança apenas de texto perde esses ataques.
Ad

Percentuais de detalhamento das ameaças

  • Exfiltração de Dados: 18,0% (-1,2 variação mensal)
  • Abuso de Ferramentas/Comandos: 14,5% (+6,4)
  • Ataque RAG/Contexto: 12,0% (+2,0)
  • Jailbreak: 11,0% (-1,3)
  • Injeção de Prompt: 8,1% (-0,7)
  • Sequestro de Objetivo do Agente: 6,9% (+3,3)
  • Ataque Inter-Agente: 5,0% (+1,6)

Abordagem de detecção

O pipeline de detecção usa duas camadas: L1 é correspondência de padrões com 218 regras (latência sub-ms, executa inteiramente localmente), e L2 é baseada em Gemma. A edição completa da comunidade é de código aberto em github.com/raxe-ai/raxe-ce.

📖 Leia a fonte completa: r/LocalLLaMA

Ad

👀 See Also

Estudante contribui com dois patches de segurança para o sistema de produção OpenClaw
Security

Estudante contribui com dois patches de segurança para o sistema de produção OpenClaw

Um desenvolvedor estudante corrigiu uma vulnerabilidade 'fail-open' na lógica do gateway do OpenClaw (PR #29198) e uma vulnerabilidade de tabnabbing em imagens de chat (PR #18685), com ambos os patches sendo implementados nas versões de produção v2026.3.1 e v2026.2.24, respectivamente.

OpenClawRadar
AppLovin Mediação Cipher Quebrada: Impressão Digital do Dispositivo Ignora ATT
Security

AppLovin Mediação Cipher Quebrada: Impressão Digital do Dispositivo Ignora ATT

A engenharia reversa revelou que a cifra personalizada da AppLovin usa um salt constante + chave SDK, um gerador pseudoaleatório SplitMix64 e nenhuma autenticação. Requisições descriptografadas carregam ~50 campos do dispositivo (modelo de hardware, tamanho da tela, localidade, tempo de inicialização, etc.) mesmo quando o ATT é negado, permitindo reidentificação determinística entre aplicativos.

OpenClawRadar
Claude implementa verificação de identidade para certos casos de uso
Security

Claude implementa verificação de identidade para certos casos de uso

A Anthropic está implementando verificação de identidade para o Claude por meio do Persona Identities, exigindo documentos de identidade com foto emitidos pelo governo e selfies ao vivo. O processo de verificação leva menos de cinco minutos e é usado para prevenir abusos e cumprir obrigações legais.

OpenClawRadar
O aplicativo Claude Desktop da Anthropic instala uma ponte de mensagens nativas não divulgada
Security

O aplicativo Claude Desktop da Anthropic instala uma ponte de mensagens nativas não divulgada

O Claude Desktop instala silenciosamente uma extensão de navegador pré-autorizada que permite mensagens nativas, levantando preocupações de segurança.

OpenClawRadar