Ataques de Inyección Camuflados en el Dominio Eluden Detectores en Sistemas LLM Multiagente

Un nuevo artículo de Aaditya Pai identifica un punto ciego crítico en los detectores de inyección de LLM: los ataques de inyección camuflados por dominio —payloads generados para imitar el vocabulario y las estructuras de autoridad del documento objetivo— evaden sistemáticamente la detección. Los detectores estándar señalan payloads estáticos con altas tasas, pero fallan contra los camuflados.
Hallazgos clave
- Tasa de detección en Llama 3.1 8B: cayó del 93,8% (estático) al 9,7% (camuflado).
- Tasa de detección en Gemini 2.0 Flash: cayó del 100% al 55,6%.
- Llama Guard 3, un clasificador de seguridad de producción, detectó cero payloads camuflados (IDR = 0.000). La Brecha de Detección de Camuflaje (CDG) es estadísticamente significativa en 45 tareas y tres dominios (Llama: χ² = 38.03, p < 0.001; Gemini: χ² = 17.05, p < 0.001).
El debate multiagente amplifica los ataques
Las arquitecturas de debate multiagente amplifican los ataques de inyección estática hasta 9,9x en modelos más pequeños. Los modelos más fuertes muestran resistencia colectiva. La mejora del detector dirigida solo remedia parcialmente la brecha: mejora del 10,2% en Llama, 78,7% en Gemini, lo que indica que la vulnerabilidad es arquitectónica para modelos más débiles.
Framework publicado
Los autores publican su framework, banco de tareas y generador de payloads públicamente. El punto ciego se extiende más allá de los detectores de pocos ejemplos a los clasificadores de seguridad dedicados, lo que sugiere debilidades fundamentales en el enfoque actual.
📖 Lee la fuente completa: HN LLM Tools
👀 Ver también

El Ataque FlyTrap Utiliza Sombrillas Adversariales para Comprometer Drones Autónomos Basados en Cámaras.
Investigadores de UC Irvine desarrollaron FlyTrap, un marco de ataque físico que utiliza paraguas pintados para explotar vulnerabilidades en sistemas de seguimiento autónomo basados en cámaras. El ataque reduce las distancias de seguimiento a niveles peligrosos, permitiendo la captura de drones, ataques a sensores o colisiones físicas.

La fuga del mapa de código fuente de Claude revela que el JavaScript minificado ya era público en npm
Un archivo de mapa de fuentes incluido accidentalmente en la versión 2.1.88 del paquete npm @anthropic-ai/claude-code reveló comentarios internos de los desarrolladores, pero el archivo cli.js real de 13 MB que contiene más de 148,000 cadenas de texto plano ha sido públicamente accesible en npm desde su lanzamiento.

OneCLI: Bóveda de Credenciales de Código Abierto para Agentes de IA
OneCLI es una puerta de enlace de código abierto escrita en Rust que se sitúa entre los agentes de IA y los servicios externos, inyectando credenciales reales en el momento de la solicitud mientras que los agentes solo ven claves de marcador de posición. Proporciona almacenamiento cifrado AES-256-GCM, se ejecuta en un único contenedor Docker con PGlite integrado y funciona con cualquier framework de agentes que pueda configurar un HTTPS_PROXY.

Se Publica la Hoja de Trucos de Gestión de Superficie de Ataque de Código Abierto
Un desarrollador ha publicado una hoja de referencia de código abierto sobre Gestión de Superficie de Ataque que comenzó como notas personales y evolucionó hacia una referencia estructurada. El proyecto se centra en la implementación práctica de ASM en lugar de conceptos teóricos.