Ataques de Injeção Camuflados em Domínio Evadam Detectores em Sistemas LLM Multiagentes

Um novo artigo de Aaditya Pai identifica um ponto cego crítico nos detectores de injeção de LLM: ataques de injeção camuflados por domínio—payloads gerados para imitar o vocabulário e as estruturas de autoridade do documento alvo—que sistematicamente escapam da detecção. Detectores padrão sinalizam payloads estáticos em altas taxas, mas falham contra os camuflados.
Principais Descobertas
- Taxa de detecção no Llama 3.1 8B: caiu de 93,8% (estático) para 9,7% (camuflado).
- Taxa de detecção no Gemini 2.0 Flash: caiu de 100% para 55,6%.
- Llama Guard 3, um classificador de segurança de produção, detectou zero payloads camuflados (IDR = 0,000).
- A Lacuna de Detecção de Camuflagem (CDG) é estatisticamente significativa em 45 tarefas e três domínios (Llama: χ² = 38,03, p < 0,001; Gemini: χ² = 17,05, p < 0,001).
Debate Multiagente Amplifica Ataques
Arquiteturas de debate multiagente amplificam ataques de injeção estática em até 9,9x em modelos menores. Modelos mais fortes mostram resistência coletiva. Aumento direcionado do detector apenas remediar parcialmente a lacuna: melhoria de 10,2% no Llama, 78,7% no Gemini—indicando que a vulnerabilidade é arquitetural para modelos mais fracos.
Framework Liberado
Os autores disponibilizam publicamente seu framework, banco de tarefas e gerador de payloads. O ponto cego se estende além dos detectores few-shot para classificadores de segurança dedicados, sugerindo fraquezas fundamentais na abordagem atual.
📖 Leia a fonte completa: HN LLM Tools
👀 See Also

Vulnerabilidade no Snowflake Cortex Code CLI permitiu escape de sandbox e execução de malware
Uma vulnerabilidade na versão 1.0.25 e anteriores do Snowflake Cortex Code CLI permitia a execução arbitrária de comandos sem aprovação humana através de bypass de substituição de processo, possibilitando a instalação de malware e escape do sandbox por meio de injeção de prompt indireta.

Claude Code continua registrando sessões após revogação, usuário relata 2 semanas de silêncio no suporte
Um usuário do Claude Code relata que os logs de sessão continuaram aparecendo após revogar o acesso, com o suporte da Anthropic sem resposta por duas semanas. Os logs incluíam escopos como user:file_upload, user:ccr_inference e user:sessions:claude_code.

Agente-Drift: Ferramenta de Monitoramento de Segurança para Agentes de IA
Nenhum

Isolamento de camada proxy para segurança de chaves de API de agentes locais
Um desenvolvedor compartilha uma abordagem para isolamento de chaves de API em configurações locais de agentes usando um proxy em Rust que substitui tokens de espaço reservado por credenciais reais, evitando a exposição na memória do agente, logs, janelas de contexto e ambientes de ferramentas.