Punto de Referencia de Seguridad: 10 LLMs Evaluados con 211 Sondas Adversariales

Un investigador de seguridad realizó una prueba sistemática de 10 LLMs diferentes contra 211 sondas de seguridad adversarias para evaluar cómo manejan los ataques en escenarios del mundo real.
Metodología de la Prueba
El investigador utilizó una configuración estandarizada con temperatura 0 y llamadas API idénticas para cada modelo. La prueba incluyó 82 sondas de extracción (intentando robar indicaciones del sistema) y 109 sondas de inyección (intentando secuestrar el comportamiento del modelo). Se utilizó como cebo una indicación de sistema honeypot cargada con PII falsa, claves SSH y credenciales de API.
Hallazgos Clave
- La resistencia a la extracción está mayormente resuelta: La mayoría de los modelos son decentes para bloquear ataques del tipo "repite tu indicación del sistema". El promedio entre todos los modelos es de alrededor del 85%.
- La resistencia a la inyección no está resuelta: El promedio es del 46.2%, lo que significa que más de la mitad de los ataques de inyección tienen éxito en general.
- Fallos universales: Cada modelo falló en ataques por delimitadores, inyección por distracción e inyección de estilo. 0% de resistencia en esas categorías en los 10 modelos.
- Patrones de ataque muertos: Cada modelo resistió la división de carga útil y la evasión por errores tipográficos al 100%.
Resultados Específicos por Modelo
- Claude Opus: Obtuvo un 72.7% en resistencia a la inyección, el mejor de todos los modelos probados. Aún así significa que más de 1 de cada 4 ataques de inyección funcionan.
- GPT-5.4: Tiene puntuaciones perfectas en extracción e integridad de límites, pero solo un 50% de resistencia a la inyección.
- GPT-5.3 Codex: El modelo detrás de Codex CLI que ejecuta código en tu máquina obtuvo un 34.5% en inyección. 2 de cada 3 intentos de inyección tienen éxito.
- DeepSeek V3.2: Obtuvo un 17.4% en inyección, básicamente sin resistencia.
- Qwen 3.5 API vs local: Extracción casi idéntica (81.6% vs 81.7%) pero la versión local es peor en inyección (46.9% vs 29.8%) y mucho peor en integridad de límites (59.8% vs 44.6%). Ejecutarlo localmente no lo hace menos capaz de bloquear extracciones, pero sí lo hace más vulnerable a inyecciones.
Por qué Importa la Inyección
Extracción significa que alguien roba tu indicación del sistema - malo, pero recuperable. Inyección significa que alguien secuestra lo que hace tu agente. Si tu agente tiene acceso a herramientas, al sistema de archivos o puede hacer llamadas API, una inyección exitosa puede llevar a exfiltración de datos, eliminación de archivos o algo peor. En este momento, el mejor modelo del mundo solo bloquea el 73% de los intentos de inyección.
La metodología completa y los resultados son públicos en agentseal.org/benchmark. La indicación de prueba también está publicada para que cualquiera pueda reproducir los resultados.
📖 Read the full source: r/LocalLLaMA
👀 Ver también

Protección del Presupuesto de AI: Por Qué Deberías Usar una Tarjeta Prepago con OpenClaw

FORGE: Marco de Pruebas de Seguridad de IA de Código Abierto para Sistemas LLM
FORGE es un marco de pruebas de seguridad de IA autónomo que construye sus propias herramientas durante la ejecución, se autoreplica en un enjambre y cubre las 10 principales vulnerabilidades OWASP LLM, incluyendo inyección de prompts, fuzzing de jailbreak y fugas RAG.

pi-governance: RBAC, DLP y registro de auditoría para agentes de codificación OpenClaw
pi-governance es un complemento que se sitúa entre los agentes de codificación de IA y su sistema, clasificando las llamadas a herramientas y bloqueando operaciones riesgosas. Proporciona bloqueo de comandos bash, escaneo DLP para secretos y PII, control de acceso basado en roles y registro de auditoría estructurado sin necesidad de configuración.

El repositorio de GitHub documenta 16 técnicas de inyección de prompts y estrategias de defensa para chats públicos de IA.
Un desarrollador publicó un repositorio en GitHub que detalla medidas de seguridad para chatbots de IA públicos después de que usuarios intentaran inyección de prompts, ataques de roleplay, trucos multilingües y payloads codificados en base64. La guía incluye una habilidad de código de Claude para probar las 16 técnicas de inyección documentadas.