Pesquisa: Caracteres Unicode Invisíveis Podem Sequestrar Agentes de LLM por Meio do Acesso a Ferramentas

✍️ OpenClawRadar📅 Publicado: February 26, 2026🔗 Source
Pesquisa: Caracteres Unicode Invisíveis Podem Sequestrar Agentes de LLM por Meio do Acesso a Ferramentas
Ad

Visão Geral da Pesquisa

Pesquisadores testaram se grandes modelos de linguagem (LLMs) seguem instruções ocultas em caracteres Unicode invisíveis incorporados em texto de aparência normal. O estudo avaliou dois esquemas de codificação (binário de largura zero e Tags Unicode) em cinco modelos: GPT-5.2, GPT-4o-mini, Claude Opus 4, Sonnet 4 e Haiku 4.5. Eles analisaram 8.308 saídas avaliadas para avaliar a vulnerabilidade a este ataque esteganográfico.

Principais Achados

  • O acesso a ferramentas é o principal amplificador: Sem ferramentas, a conformidade com instruções ocultas permaneceu abaixo de 17%. Com ferramentas e dicas de decodificação, a conformidade atingiu 98-100%. Os modelos escrevem scripts Python para decodificar os caracteres ocultos quando recebem acesso a ferramentas.
  • A vulnerabilidade de codificação é específica do provedor: Modelos da OpenAI decodificam binário de largura zero, mas não Tags Unicode. Modelos da Anthropic preferem Tags. Os atacantes devem adaptar a codificação ao modelo alvo.
  • O gradiente de dicas é consistente: Conformidade sem dicas << dicas de ponto de código < instruções completas de decodificação. A combinação de acesso a ferramentas + instruções de decodificação é o habilitador crítico.
  • Significância estatística: Todas as 10 comparações pareadas de modelos são estatisticamente significativas (teste exato de Fisher, corrigido por Bonferroni, p < 0,05). Os tamanhos do efeito h de Cohen atingiram até 1,37.
Ad

Detalhes da Pesquisa

Os pesquisadores observam que seria interessante ver como os modelos locais se comparam, pois eles testaram apenas modelos de API. Eles convidam outros a executar esta avaliação contra Llama, Qwen, Mistral e outros modelos locais usando sua estrutura de código aberto.

A estrutura de avaliação, código e dados estão disponíveis no GitHub, e um relatório completo com gráficos é publicado no Moltwire. Esta pesquisa destaca uma vulnerabilidade de segurança onde agentes LLM podem ser manipulados através de texto oculto que parece normal para usuários humanos, mas contém instruções codificadas que os modelos podem decodificar e executar quando recebem as ferramentas apropriadas.

📖 Leia a fonte completa: r/LocalLLaMA

Ad

👀 See Also

arifOS: Um Kernel de Governança MCP de US$ 15 para Segurança da Ferramenta OpenClaw
Security

arifOS: Um Kernel de Governança MCP de US$ 15 para Segurança da Ferramenta OpenClaw

arifOS é um servidor MCP leve que intercepta chamadas de ferramentas OpenClaw, pontua-as de 000 a 999 e bloqueia ações inseguras com 13 pisos de segurança rígidos antes que alcancem sistemas de arquivos, APIs ou bancos de dados.

OpenClawRadar
Da Fazenda ao Código: Como um Agricultor Criou uma Defesa de Runtime de Código Aberto para o OpenClaw
Security

Da Fazenda ao Código: Como um Agricultor Criou uma Defesa de Runtime de Código Aberto para o OpenClaw

Descubra como um agricultor, sem experiência prévia em desenvolvimento, criou uma defesa de tempo de execução de código aberto para o OpenClaw usando múltiplos agentes de IA de codificação em apenas 12 horas.

OpenClawRadar
Caelguard: Scanner de segurança de código aberto para habilidades do OpenClaw
Security

Caelguard: Scanner de segurança de código aberto para habilidades do OpenClaw

Caelguard é um scanner licenciado pelo MIT, executado localmente, que detecta problemas de segurança em habilidades do OpenClaw, incluindo injeção de prompt, coleta de credenciais e cargas úteis ofuscadas. Pesquisas mostram que aproximadamente 20% das habilidades publicadas contêm padrões preocupantes.

OpenClawRadar
Audite Suas Permissões do Claude Code: Um Guia Prático para Definir o Acesso a Ferramentas
Security

Audite Suas Permissões do Claude Code: Um Guia Prático para Definir o Acesso a Ferramentas

Um usuário do Reddit auditou sua configuração do Claude Code e descobriu ferramentas com permissões excessivas que poderiam editar arquivos .env e configurações de produção. Passos práticos: audite ferramentas globais vs. por projeto, verifique CLAUDE.md em busca de segredos e escopo o acesso a arquivos por diretório.

OpenClawRadar