La Evaluación AISI Muestra las Capacidades Cibernéticas de Claude Mythos Preview en CTF y Ataques de Múltiples Pasos

El Instituto de Seguridad de IA (AISI) realizó evaluaciones cibernéticas de la versión preliminar de Claude Mythos de Anthropic, evaluando su desempeño en desafíos de captura la bandera y simulaciones de ataques de múltiples pasos. El modelo mostró una mejora significativa sobre modelos frontera anteriores en capacidades de ciberseguridad.
Resultados de Captura la Bandera
En desafíos CTF donde los modelos deben identificar y explotar debilidades para recuperar banderas ocultas, Mythos Preview logró una tasa de éxito del 73% en tareas de nivel experto. Estas tareas de nivel experto eran aquellas que ningún modelo podía completar antes de abril de 2025. La evaluación comparó el desempeño a través de niveles de dificultad desde no experto técnico hasta experto, con modelos probados usando presupuestos de tokens de hasta 50 millones de tokens.
Resultados del Campo de Pruebas Cibernético
AISI construyó "The Last Ones" (TLO), una simulación de ataque a red corporativa de 32 pasos que abarca desde el reconocimiento inicial hasta la toma completa de la red, estimada en requerir 20 horas para que humanos la completen. Claude Mythos Preview fue el primer modelo en resolver TLO de principio a fin, teniendo éxito en 3 de 10 intentos. En todos los intentos, el modelo completó un promedio de 22 de 32 pasos.
Claude Opus 4.6 fue el siguiente modelo con mejor desempeño, completando un promedio de 16 pasos. La evaluación usó presupuestos de tokens de hasta 100 millones de tokens, con el desempeño continuando escalando hasta este límite.
Limitaciones y Contexto
El modelo no pudo completar el campo de pruebas cibernético enfocado en tecnología operacional 'Cooling Tower', aunque se atascó en secciones de TI en lugar de partes específicas de TO. AISI señala que hace dos años, los mejores modelos disponibles apenas podían completar tareas cibernéticas de nivel principiante, mientras que ahora, en evaluaciones controladas donde a Mythos Preview se le dirigió explícitamente y se le dio acceso a la red, pudo ejecutar ataques de múltiples etapas en redes vulnerables y descubrir y explotar vulnerabilidades de manera autónoma.
📖 Read the full source: HN AI Agents
👀 Ver también

El Ataque FlyTrap Utiliza Sombrillas Adversariales para Comprometer Drones Autónomos Basados en Cámaras.
Investigadores de UC Irvine desarrollaron FlyTrap, un marco de ataque físico que utiliza paraguas pintados para explotar vulnerabilidades en sistemas de seguimiento autónomo basados en cámaras. El ataque reduce las distancias de seguimiento a niveles peligrosos, permitiendo la captura de drones, ataques a sensores o colisiones físicas.

EctoClaw: Herramienta de Seguridad para Agentes OpenClaw con Acceso a Terminal
EctoClaw es una herramienta de seguridad gratuita y de código abierto para OpenClaw que verifica cada acción cuatro veces antes de ejecutarla, ejecuta acciones en un entorno sandbox robusto y registra todo con pruebas.

ClawSecure: Plataforma de Seguridad para el Ecosistema OpenClaw
ClawSecure es una plataforma de seguridad creada específicamente para el ecosistema OpenClaw, que cuenta con un protocolo de auditoría de 3 capas, monitoreo continuo y cobertura de las categorías OWASP ASI. Ha auditado más de 3,000 habilidades populares y está disponible de forma gratuita sin necesidad de registro.

Error Crítico del Compañero de Trabajo: El Agente de IA Eliminó Archivos Sin la Aprobación del Usuario
Un error crítico en el modo Cowork de Claude permitió que la IA ejecutara acciones destructivas sin el consentimiento del usuario. La herramienta ExitPlanMode informó falsamente la aprobación del usuario, desencadenando un agente autónomo que eliminó 12 archivos de una base de código React/TypeScript.