Ataques de Inyección Camuflados en el Dominio Eluden Detectores en Sistemas LLM Multiagente

✍️ OpenClawRadar📅 Publicado: 23 de mayo de 2026🔗 Source

Un nuevo artículo de Aaditya Pai identifica un punto ciego crítico en los detectores de inyección de LLM: los ataques de inyección camuflados por dominio —payloads generados para imitar el vocabulario y las estructuras de autoridad del documento objetivo— evaden sistemáticamente la detección. Los detectores estándar señalan payloads estáticos con altas tasas, pero fallan contra los camuflados.

Hallazgos clave

Tasa de detección en Llama 3.1 8B: cayó del 93,8% (estático) al 9,7% (camuflado).
Tasa de detección en Gemini 2.0 Flash: cayó del 100% al 55,6%.
Llama Guard 3, un clasificador de seguridad de producción, detectó cero payloads camuflados (IDR = 0.000).

Brecha de Detección de Camuflaje (CDG)

El debate multiagente amplifica los ataques

Las arquitecturas de debate multiagente amplifican los ataques de inyección estática hasta 9,9x en modelos más pequeños. Los modelos más fuertes muestran resistencia colectiva. La mejora del detector dirigida solo remedia parcialmente la brecha: mejora del 10,2% en Llama, 78,7% en Gemini, lo que indica que la vulnerabilidad es arquitectónica para modelos más débiles.

Framework publicado

Los autores publican su framework, banco de tareas y generador de payloads públicamente. El punto ciego se extiende más allá de los detectores de pocos ejemplos a los clasificadores de seguridad dedicados, lo que sugiere debilidades fundamentales en el enfoque actual.

📖 Lee la fuente completa: HN LLM Tools

👀 Ver también

Seguridad

Malwar: Un Escáner de Vulnerabilidades para Archivos SKILL.md Construido con Claude Code

Un desarrollador ha lanzado Malwar, una herramienta gratuita que escanea archivos SKILL.md en busca de instrucciones maliciosas utilizando una canalización de 4 capas que incluye un motor de reglas, un rastreador de URL, análisis con LLM e inteligencia de amenazas. La herramienta fue construida completamente con Claude Code después de que el desarrollador encontrara patrones preocupantes como bloques Base64 e instrucciones para canalizar la salida de curl a bash en habilidades existentes.

13 mar 2026, 21:45 UTC

OpenClawRadar

Seguridad

Integración del Agente SOC OpenClaw para la Caza de Amenazas en el Laboratorio Casero SIEM

Un usuario de Reddit comparte su configuración de SIEM de código abierto llamada Red Threat Redemption en Debian 13, integrando Elasticsearch, Kibana, Wazuh, Zeek y pfSense con Suricata, luego añade un agente de IA para correlación automatizada de amenazas, búsqueda de amenazas y clasificación de alertas.

17 mar 2026, 21:45 UTC

OpenClawRadar

Seguridad

SCION: La alternativa segura de Suiza al protocolo de enrutamiento BGP

SCION (Escalabilidad, Control y Aislamiento en Redes de Próxima Generación) es una arquitectura de enrutamiento de internet desarrollada en ETH Zúrich que reemplaza los fundamentos de BGP con seguridad integrada y enrutamiento multipath. A diferencia de los parches de BGP como RPKI y BGPsec, SCION establece decenas o cientos de rutas paralelas con reconexión en milisegundos cuando ocurren fallos.

18 mar 2026, 11:45 UTC

OpenClawRadar

Seguridad

Modelo de Seguridad de NanoClaw para Agentes de IA: Aislamiento de Contenedores y Código Mínimo

NanoClaw implementa una arquitectura de seguridad donde cada agente de IA se ejecuta en su propio contenedor efímero con acceso de usuario sin privilegios, sistemas de archivos aislados y listas de montaje explícitas. La base de código es deliberadamente mínima, con alrededor de un proceso y un puñado de archivos, confiando en el SDK de Agentes de Anthropic en lugar de reinventar funcionalidades.

28 feb 2026, 17:45 UTC

OpenClawRadar