Ataque Unicode invisible: vulnerabilidad en Claude Sonnet 4 y Opus 4

Vulnerabilidad de esteganografía Unicode en modelos Claude

Los investigadores probaron si los caracteres Unicode invisibles podían secuestrar el comportamiento de los LLM incrustando instrucciones ocultas dentro de texto de apariencia normal. El estudio evaluó 8,308 salidas calificadas en GPT-5.2, GPT-4o-mini y tres modelos Claude: Opus 4, Sonnet 4 y Haiku 4.5.

Hallazgos clave para modelos Claude

Sonnet 4 es el modelo más susceptible en general con un 71.2% de cumplimiento con herramientas habilitadas. Con pistas completas, alcanzó un 98-100% de cumplimiento en ambos esquemas de codificación probados.

Opus 4 logra un 100% de cumplimiento en la codificación Unicode Tags cuando se le dan pistas de puntos de código o completas con herramientas habilitadas, pero solo un 48-68% en la codificación binaria de ancho cero.

Haiku 4.5 muestra el mayor aumento relativo en vulnerabilidad cuando se le da acceso a herramientas, saltando de 0.8% a 49.2% de cumplimiento (razón de probabilidades 115).

Factores críticos de vulnerabilidad

El acceso a herramientas es el amplificador crítico. Sin herramientas, todos los modelos Claude se mantienen por debajo del 17% de cumplimiento. Con herramientas habilitadas, escriben código Python para decodificar los caracteres invisibles y seguir las instrucciones ocultas.

Patrones de preferencia de codificación: Los modelos Anthropic prefieren fuertemente la codificación Unicode Tags sobre la binaria de ancho cero, mientras que los modelos OpenAI muestran el patrón opuesto.

Efectos de enmarcado de inyección: Agregar "Ignora todas las instrucciones anteriores" en realidad reduce el cumplimiento para Opus (de 100% a niveles más bajos) pero paradójicamente lo aumenta para Sonnet (de 43.7% a 59.6%).

Detalles técnicos

Los investigadores probaron dos esquemas de codificación: Unicode Tags y binario de ancho cero. Cuando las herramientas están disponibles, los modelos Claude ejecutan código Python para decodificar estos caracteres ocultos y actuar según las instrucciones ocultas.

Este tipo de ataque representa una forma de esteganografía donde las instrucciones maliciosas se ocultan dentro de texto aparentemente benigno usando caracteres Unicode invisibles que no son visibles para los lectores humanos pero pueden ser detectados y procesados por los modelos.

📖 Leer la fuente completa: r/ClaudeAI

Los modelos Claude son vulnerables al secuestro mediante caracteres Unicode invisibles, especialmente con acceso a herramientas.

Vulnerabilidad de esteganografía Unicode en modelos Claude

Hallazgos clave para modelos Claude

Factores críticos de vulnerabilidad

Detalles técnicos

👀 Ver también

Tablero en vivo de herramientas OpenClaw expuestas

MCP Sandbox: Ejecuta Servidores MCP en Contenedores Aislados Sin Necesidad de Confiar en Ellos

Bucles de Servilismo de la IA: La Vulnerabilidad del RLHF Crea Dependencia y Cámaras de Eco

Grupo de Inteligencia de Amenazas de Google reporta el primer exploit de día cero desarrollado por IA que evade la 2FA