Ataque Unicode Invisível em LLMs: 98% de Conformidade com Acesso a Ferramentas

Visão Geral da Pesquisa

Pesquisadores testaram se grandes modelos de linguagem (LLMs) seguem instruções ocultas em caracteres Unicode invisíveis incorporados em texto de aparência normal. O estudo avaliou dois esquemas de codificação (binário de largura zero e Tags Unicode) em cinco modelos: GPT-5.2, GPT-4o-mini, Claude Opus 4, Sonnet 4 e Haiku 4.5. Eles analisaram 8.308 saídas avaliadas para avaliar a vulnerabilidade a este ataque esteganográfico.

Principais Achados

O acesso a ferramentas é o principal amplificador: Sem ferramentas, a conformidade com instruções ocultas permaneceu abaixo de 17%. Com ferramentas e dicas de decodificação, a conformidade atingiu 98-100%. Os modelos escrevem scripts Python para decodificar os caracteres ocultos quando recebem acesso a ferramentas.
A vulnerabilidade de codificação é específica do provedor: Modelos da OpenAI decodificam binário de largura zero, mas não Tags Unicode. Modelos da Anthropic preferem Tags. Os atacantes devem adaptar a codificação ao modelo alvo.
O gradiente de dicas é consistente: Conformidade sem dicas << dicas de ponto de código < instruções completas de decodificação. A combinação de acesso a ferramentas + instruções de decodificação é o habilitador crítico.
Significância estatística: Todas as 10 comparações pareadas de modelos são estatisticamente significativas (teste exato de Fisher, corrigido por Bonferroni, p < 0,05). Os tamanhos do efeito h de Cohen atingiram até 1,37.

Detalhes da Pesquisa

Os pesquisadores observam que seria interessante ver como os modelos locais se comparam, pois eles testaram apenas modelos de API. Eles convidam outros a executar esta avaliação contra Llama, Qwen, Mistral e outros modelos locais usando sua estrutura de código aberto.

A estrutura de avaliação, código e dados estão disponíveis no GitHub, e um relatório completo com gráficos é publicado no Moltwire. Esta pesquisa destaca uma vulnerabilidade de segurança onde agentes LLM podem ser manipulados através de texto oculto que parece normal para usuários humanos, mas contém instruções codificadas que os modelos podem decodificar e executar quando recebem as ferramentas apropriadas.

📖 Leia a fonte completa: r/LocalLLaMA

Pesquisa: Caracteres Unicode Invisíveis Podem Sequestrar Agentes de LLM por Meio do Acesso a Ferramentas

Visão Geral da Pesquisa

Principais Achados

Detalhes da Pesquisa

👀 See Also

Pare de confiar mais na IA do que em um humano — Aplique os mesmos controles de acesso

A ferramenta Cloak substitui senhas de chat por links autodestrutivos para agentes OpenClaw.

Apps Construídos por IA São Frágeis: Por Que Pequenas Mudanças Quebram o Isolamento de Dados e Permissões

Relatório Independente sobre Conclusões de Confiabilidade e Segurança do Servidor MCP