Unicode Invisible: Secuestro de LLM vía Herramientas

Resumen de la Investigación

Los investigadores evaluaron si los modelos de lenguaje grandes (LLM) siguen instrucciones ocultas en caracteres Unicode invisibles incrustados en texto de apariencia normal. El estudio evaluó dos esquemas de codificación (binario de ancho cero y Etiquetas Unicode) en cinco modelos: GPT-5.2, GPT-4o-mini, Claude Opus 4, Sonnet 4 y Haiku 4.5. Analizaron 8,308 salidas calificadas para evaluar la vulnerabilidad a este ataque esteganográfico.

Hallazgos Clave

El acceso a herramientas es el principal amplificador: Sin herramientas, el cumplimiento de instrucciones ocultas se mantuvo por debajo del 17%. Con herramientas y pistas de decodificación, el cumplimiento alcanzó 98-100%. Los modelos escriben scripts en Python para decodificar los caracteres ocultos cuando se les da acceso a herramientas.
La vulnerabilidad de codificación es específica del proveedor: Los modelos de OpenAI decodifican binario de ancho cero pero no Etiquetas Unicode. Los modelos de Anthropic prefieren Etiquetas. Los atacantes deben adaptar la codificación al modelo objetivo.
El gradiente de pistas es consistente: Cumplimiento sin pistas << pistas de puntos de código < instrucciones completas de decodificación. La combinación de acceso a herramientas + instrucciones de decodificación es el habilitador crítico.
Significancia estadística: Las 10 comparaciones por pares de modelos son estadísticamente significativas (prueba exacta de Fisher, corregida por Bonferroni, p < 0.05). Los tamaños del efecto h de Cohen alcanzaron hasta 1.37.

Detalles de la Investigación

Los investigadores señalan que sería interesante ver cómo se comparan los modelos locales, ya que solo probaron modelos de API. Invitan a otros a ejecutar esta evaluación contra Llama, Qwen, Mistral y otros modelos locales utilizando su marco de código abierto.

El marco de evaluación, código y datos están disponibles en GitHub, y un informe completo con gráficos se publica en Moltwire. Esta investigación destaca una vulnerabilidad de seguridad donde los agentes de LLM pueden ser manipulados a través de texto oculto que parece normal para usuarios humanos pero contiene instrucciones codificadas que los modelos pueden decodificar y ejecutar cuando se les dan las herramientas apropiadas.

📖 Leer la fuente completa: r/LocalLLaMA

Investigación: Los Caracteres Unicode Invisibles Pueden Secuestrar Agentes de LLM a través del Acceso a Herramientas

Resumen de la Investigación

Hallazgos Clave

Detalles de la Investigación

👀 Ver también

Gancho Inteligente de Permisos de Bash para Claude Code Previene la Omisión de Comandos Compuestos

Exploit asistido por LLM: la vista previa de Mythos de Anthropic ayudó a construir el primer exploit público del kernel de macOS en Apple M5 en cinco días

La función de soporte de IA de Meta permite a cualquiera secuestrar cuentas de Instagram — Detalles del exploit adentro

Agente Hush: Herramienta de código abierto evita que los agentes de IA de programación filtren datos confidenciales