Os modelos Claude são vulneráveis a sequestros por caracteres Unicode invisíveis, especialmente com acesso a ferramentas.

Vulnerabilidade de esteganografia Unicode em modelos Claude
Pesquisadores testaram se caracteres Unicode invisíveis poderiam sequestrar o comportamento de LLMs incorporando instruções ocultas dentro de textos de aparência normal. O estudo avaliou 8.308 saídas classificadas em GPT-5.2, GPT-4o-mini e três modelos Claude: Opus 4, Sonnet 4 e Haiku 4.5.
Principais descobertas para modelos Claude
Sonnet 4 é o modelo mais suscetível no geral, com 71,2% de conformidade com ferramentas ativadas. Com dicas completas, atingiu 98-100% de conformidade em ambos os esquemas de codificação testados.
Opus 4 alcança 100% de conformidade na codificação Unicode Tags quando recebe dicas de pontos de código ou completas com ferramentas ativadas, mas apenas 48-68% na codificação binária de largura zero.
Haiku 4.5 mostra o maior aumento relativo de vulnerabilidade quando recebe acesso a ferramentas, saltando de 0,8% para 49,2% de conformidade (razão de chances 115).
Fatores críticos de vulnerabilidade
O acesso às ferramentas é o amplificador crítico. Sem ferramentas, todos os modelos Claude permanecem abaixo de 17% de conformidade. Com ferramentas ativadas, eles escrevem código Python para decodificar os caracteres invisíveis e seguir as instruções ocultas.
Padrões de preferência de codificação: Modelos Anthropic preferem fortemente a codificação Unicode Tags em vez da codificação binária de largura zero, enquanto modelos OpenAI mostram o padrão oposto.
Efeitos de enquadramento de injeção: Adicionar "Ignore todas as instruções anteriores" na verdade reduz a conformidade para Opus (de 100% para níveis mais baixos), mas paradoxalmente aumenta para Sonnet (de 43,7% para 59,6%).
Detalhes técnicos
Os pesquisadores testaram dois esquemas de codificação: Unicode Tags e binário de largura zero. Quando as ferramentas estão disponíveis, os modelos Claude executam código Python para decodificar esses caracteres ocultos e agir de acordo com as instruções ocultas.
Esse tipo de ataque representa uma forma de esteganografia onde instruções maliciosas são ocultadas dentro de textos aparentemente benignos usando caracteres Unicode invisíveis que não são visíveis para leitores humanos, mas podem ser detectados e processados pelos modelos.
📖 Leia a fonte completa: r/ClaudeAI
👀 See Also

LiteLLM v1.82.8 Comprometido Usa Arquivo .pth para Execução Persistente
A versão 1.82.8 do LiteLLM foi comprometida no PyPI e inclui um arquivo .pth que executa código arbitrário em cada inicialização do processo Python, não apenas quando a biblioteca é importada. A carga útil é executada mesmo se o LiteLLM estiver instalado como uma dependência transitiva e nunca for usado diretamente.

Resultados da investigação de segurança para os agentes de IA OpenClaw, PicoClaw, ZeroClaw, IronClaw e Minion
Uma avaliação de segurança de cinco agentes de codificação de IA testou 145 cargas de ataque em 12 categorias, incluindo injeção de prompt, jailbreaking e exfiltração de dados. OpenClaw obteve 77,8/100 com vulnerabilidades críticas de injeção SQL, enquanto Minion melhorou de 81,2 para 94,4/100 após correções.
Título: Grupo de Inteligência de Ameaças do Google Relata Primeira Exploração de Dia Zero Desenvolvida por IA que Ignora 2FA
O Google Threat Intelligence Group detectou o primeiro exploit zero-day totalmente desenvolvido por IA que contorna a autenticação de dois fatores em uma popular ferramenta de administração de sistemas de código aberto baseada na web, junto com malware automórfico e backdoors alimentados por Gemini.

Análise das Capacidades de Instrumentação e Telemetria do Claude Code
Uma análise do código-fonte revela que o Claude Code implementa rastreamento extensivo de comportamento, incluindo classificação de sentimento baseada em palavras-chave, monitoramento de hesitação em solicitações de permissão e criação detalhada de impressões digitais do ambiente.