La Evaluación AISI Muestra las Capacidades Cibernéticas de Claude Mythos Preview en CTF y Ataques de Múltiples Pasos

✍️ OpenClawRadar📅 Publicado: 16 de abril de 2026🔗 Source
La Evaluación AISI Muestra las Capacidades Cibernéticas de Claude Mythos Preview en CTF y Ataques de Múltiples Pasos
Ad

El Instituto de Seguridad de IA (AISI) realizó evaluaciones cibernéticas de la versión preliminar de Claude Mythos de Anthropic, evaluando su desempeño en desafíos de captura la bandera y simulaciones de ataques de múltiples pasos. El modelo mostró una mejora significativa sobre modelos frontera anteriores en capacidades de ciberseguridad.

Resultados de Captura la Bandera

En desafíos CTF donde los modelos deben identificar y explotar debilidades para recuperar banderas ocultas, Mythos Preview logró una tasa de éxito del 73% en tareas de nivel experto. Estas tareas de nivel experto eran aquellas que ningún modelo podía completar antes de abril de 2025. La evaluación comparó el desempeño a través de niveles de dificultad desde no experto técnico hasta experto, con modelos probados usando presupuestos de tokens de hasta 50 millones de tokens.

Ad

Resultados del Campo de Pruebas Cibernético

AISI construyó "The Last Ones" (TLO), una simulación de ataque a red corporativa de 32 pasos que abarca desde el reconocimiento inicial hasta la toma completa de la red, estimada en requerir 20 horas para que humanos la completen. Claude Mythos Preview fue el primer modelo en resolver TLO de principio a fin, teniendo éxito en 3 de 10 intentos. En todos los intentos, el modelo completó un promedio de 22 de 32 pasos.

Claude Opus 4.6 fue el siguiente modelo con mejor desempeño, completando un promedio de 16 pasos. La evaluación usó presupuestos de tokens de hasta 100 millones de tokens, con el desempeño continuando escalando hasta este límite.

Limitaciones y Contexto

El modelo no pudo completar el campo de pruebas cibernético enfocado en tecnología operacional 'Cooling Tower', aunque se atascó en secciones de TI en lugar de partes específicas de TO. AISI señala que hace dos años, los mejores modelos disponibles apenas podían completar tareas cibernéticas de nivel principiante, mientras que ahora, en evaluaciones controladas donde a Mythos Preview se le dirigió explícitamente y se le dio acceso a la red, pudo ejecutar ataques de múltiples etapas en redes vulnerables y descubrir y explotar vulnerabilidades de manera autónoma.

📖 Read the full source: HN AI Agents

Ad

👀 Ver también

El Ataque FlyTrap Utiliza Sombrillas Adversariales para Comprometer Drones Autónomos Basados en Cámaras.
Seguridad

El Ataque FlyTrap Utiliza Sombrillas Adversariales para Comprometer Drones Autónomos Basados en Cámaras.

Investigadores de UC Irvine desarrollaron FlyTrap, un marco de ataque físico que utiliza paraguas pintados para explotar vulnerabilidades en sistemas de seguimiento autónomo basados en cámaras. El ataque reduce las distancias de seguimiento a niveles peligrosos, permitiendo la captura de drones, ataques a sensores o colisiones físicas.

OpenClawRadar
EctoClaw: Herramienta de Seguridad para Agentes OpenClaw con Acceso a Terminal
Seguridad

EctoClaw: Herramienta de Seguridad para Agentes OpenClaw con Acceso a Terminal

EctoClaw es una herramienta de seguridad gratuita y de código abierto para OpenClaw que verifica cada acción cuatro veces antes de ejecutarla, ejecuta acciones en un entorno sandbox robusto y registra todo con pruebas.

OpenClawRadar
ClawSecure: Plataforma de Seguridad para el Ecosistema OpenClaw
Seguridad

ClawSecure: Plataforma de Seguridad para el Ecosistema OpenClaw

ClawSecure es una plataforma de seguridad creada específicamente para el ecosistema OpenClaw, que cuenta con un protocolo de auditoría de 3 capas, monitoreo continuo y cobertura de las categorías OWASP ASI. Ha auditado más de 3,000 habilidades populares y está disponible de forma gratuita sin necesidad de registro.

OpenClawRadar
Error Crítico del Compañero de Trabajo: El Agente de IA Eliminó Archivos Sin la Aprobación del Usuario
Seguridad

Error Crítico del Compañero de Trabajo: El Agente de IA Eliminó Archivos Sin la Aprobación del Usuario

Un error crítico en el modo Cowork de Claude permitió que la IA ejecutara acciones destructivas sin el consentimiento del usuario. La herramienta ExitPlanMode informó falsamente la aprobación del usuario, desencadenando un agente autónomo que eliminó 12 archivos de una base de código React/TypeScript.

OpenClawRadar