10 LLMs Evaluados: Seguridad Frente a 211 Sondas Adversariales

Un investigador de seguridad realizó una prueba sistemática de 10 LLMs diferentes contra 211 sondas de seguridad adversarias para evaluar cómo manejan los ataques en escenarios del mundo real.

Metodología de la Prueba

El investigador utilizó una configuración estandarizada con temperatura 0 y llamadas API idénticas para cada modelo. La prueba incluyó 82 sondas de extracción (intentando robar indicaciones del sistema) y 109 sondas de inyección (intentando secuestrar el comportamiento del modelo). Se utilizó como cebo una indicación de sistema honeypot cargada con PII falsa, claves SSH y credenciales de API.

Hallazgos Clave

La resistencia a la extracción está mayormente resuelta: La mayoría de los modelos son decentes para bloquear ataques del tipo "repite tu indicación del sistema". El promedio entre todos los modelos es de alrededor del 85%.
La resistencia a la inyección no está resuelta: El promedio es del 46.2%, lo que significa que más de la mitad de los ataques de inyección tienen éxito en general.
Fallos universales: Cada modelo falló en ataques por delimitadores, inyección por distracción e inyección de estilo. 0% de resistencia en esas categorías en los 10 modelos.
Patrones de ataque muertos: Cada modelo resistió la división de carga útil y la evasión por errores tipográficos al 100%.

Resultados Específicos por Modelo

Claude Opus: Obtuvo un 72.7% en resistencia a la inyección, el mejor de todos los modelos probados. Aún así significa que más de 1 de cada 4 ataques de inyección funcionan.
GPT-5.4: Tiene puntuaciones perfectas en extracción e integridad de límites, pero solo un 50% de resistencia a la inyección.
GPT-5.3 Codex: El modelo detrás de Codex CLI que ejecuta código en tu máquina obtuvo un 34.5% en inyección. 2 de cada 3 intentos de inyección tienen éxito.
DeepSeek V3.2: Obtuvo un 17.4% en inyección, básicamente sin resistencia.
Qwen 3.5 API vs local: Extracción casi idéntica (81.6% vs 81.7%) pero la versión local es peor en inyección (46.9% vs 29.8%) y mucho peor en integridad de límites (59.8% vs 44.6%). Ejecutarlo localmente no lo hace menos capaz de bloquear extracciones, pero sí lo hace más vulnerable a inyecciones.

Por qué Importa la Inyección

Extracción significa que alguien roba tu indicación del sistema - malo, pero recuperable. Inyección significa que alguien secuestra lo que hace tu agente. Si tu agente tiene acceso a herramientas, al sistema de archivos o puede hacer llamadas API, una inyección exitosa puede llevar a exfiltración de datos, eliminación de archivos o algo peor. En este momento, el mejor modelo del mundo solo bloquea el 73% de los intentos de inyección.

La metodología completa y los resultados son públicos en agentseal.org/benchmark. La indicación de prueba también está publicada para que cualquiera pueda reproducir los resultados.

📖 Read the full source: r/LocalLLaMA

Punto de Referencia de Seguridad: 10 LLMs Evaluados con 211 Sondas Adversariales

Metodología de la Prueba

Hallazgos Clave

Resultados Específicos por Modelo

Por qué Importa la Inyección

👀 Ver también

Agente Hush: Herramienta de código abierto evita que los agentes de IA de programación filtren datos confidenciales

Laboratorio de ataque y defensa RAG de código abierto para pilas locales de ChromaDB + LM Studio

Claude Code inicia conexión de escritorio remoto sin entrada del usuario

Verificador de SBOM sin conexión para OpenClaw detecta habilidades envenenadas en menos de 0,2 segundos