Claude Mythos Preview: 73% en CTF Experto y Ataque de 32 Pasos

El Instituto de Seguridad de IA (AISI) realizó evaluaciones cibernéticas de la versión preliminar de Claude Mythos de Anthropic, evaluando su desempeño en desafíos de captura la bandera y simulaciones de ataques de múltiples pasos. El modelo mostró una mejora significativa sobre modelos frontera anteriores en capacidades de ciberseguridad.

Resultados de Captura la Bandera

En desafíos CTF donde los modelos deben identificar y explotar debilidades para recuperar banderas ocultas, Mythos Preview logró una tasa de éxito del 73% en tareas de nivel experto. Estas tareas de nivel experto eran aquellas que ningún modelo podía completar antes de abril de 2025. La evaluación comparó el desempeño a través de niveles de dificultad desde no experto técnico hasta experto, con modelos probados usando presupuestos de tokens de hasta 50 millones de tokens.

Resultados del Campo de Pruebas Cibernético

AISI construyó "The Last Ones" (TLO), una simulación de ataque a red corporativa de 32 pasos que abarca desde el reconocimiento inicial hasta la toma completa de la red, estimada en requerir 20 horas para que humanos la completen. Claude Mythos Preview fue el primer modelo en resolver TLO de principio a fin, teniendo éxito en 3 de 10 intentos. En todos los intentos, el modelo completó un promedio de 22 de 32 pasos.

Claude Opus 4.6 fue el siguiente modelo con mejor desempeño, completando un promedio de 16 pasos. La evaluación usó presupuestos de tokens de hasta 100 millones de tokens, con el desempeño continuando escalando hasta este límite.

Limitaciones y Contexto

El modelo no pudo completar el campo de pruebas cibernético enfocado en tecnología operacional 'Cooling Tower', aunque se atascó en secciones de TI en lugar de partes específicas de TO. AISI señala que hace dos años, los mejores modelos disponibles apenas podían completar tareas cibernéticas de nivel principiante, mientras que ahora, en evaluaciones controladas donde a Mythos Preview se le dirigió explícitamente y se le dio acceso a la red, pudo ejecutar ataques de múltiples etapas en redes vulnerables y descubrir y explotar vulnerabilidades de manera autónoma.

📖 Read the full source: HN AI Agents

La Evaluación AISI Muestra las Capacidades Cibernéticas de Claude Mythos Preview en CTF y Ataques de Múltiples Pasos

Resultados de Captura la Bandera

Resultados del Campo de Pruebas Cibernético

Limitaciones y Contexto

👀 Ver también

Presentamos SkillFence: El nuevo monitor en tiempo de ejecución que observa lo que realmente hacen las habilidades.

Análisis de Seguridad de Agentes de IA Revela Modelo de Confianza Roto y Altas Tasas de Vulnerabilidad

Microsoft hackeado: malware en repositorios de GitHub ataca a usuarios de Claude y Gemini

Envoltorio de Contenido Externo de OpenClaw para la Defensa contra Inyección de Solicitudes