Claude Mythos: 73% em CTF e Ataque de 32 Etapas

O Instituto de Segurança de IA (AISI) conduziu avaliações cibernéticas da versão prévia do Claude Mythos da Anthropic, analisando seu desempenho em desafios de capturar a bandeira e simulações de ataques de múltiplas etapas. O modelo mostrou uma melhoria significativa em relação aos modelos de fronteira anteriores em capacidades de segurança cibernética.

Resultados de Capturar a Bandeira

Nos desafios de CTF, onde os modelos devem identificar e explorar vulnerabilidades para recuperar bandeiras ocultas, a versão prévia do Mythos alcançou uma taxa de sucesso de 73% em tarefas de nível especialista. Essas tarefas de nível especialista eram aquelas que nenhum modelo poderia completar antes de abril de 2025. A avaliação comparou o desempenho em diferentes níveis de dificuldade, desde o não especialista técnico até o especialista, com os modelos testados usando orçamentos de token de até 50 milhões de tokens.

Resultados do Cyber Range

O AISI construiu "The Last Ones" (TLO), uma simulação de ataque a uma rede corporativa de 32 etapas, abrangendo desde a reconhecimento inicial até a tomada completa da rede, estimada para exigir 20 horas de trabalho humano para ser concluída. A versão prévia do Claude Mythos foi o primeiro modelo a resolver o TLO do início ao fim, obtendo sucesso em 3 de 10 tentativas. Em todas as tentativas, o modelo completou em média 22 das 32 etapas.

O Claude Opus 4.6 foi o próximo modelo com melhor desempenho, completando em média 16 etapas. A avaliação usou orçamentos de token de até 100 milhões de tokens, com o desempenho continuando a escalar até esse limite.

Limitações e Contexto

O modelo não conseguiu completar o cyber range focado em tecnologia operacional 'Cooling Tower', embora tenha travado nas seções de TI em vez das partes específicas de OT. O AISI observa que, há dois anos, os melhores modelos disponíveis mal conseguiam completar tarefas cibernéticas de nível iniciante, enquanto agora, em avaliações controladas onde a versão prévia do Mythos foi explicitamente direcionada e recebeu acesso à rede, ele pôde executar ataques de múltiplos estágios em redes vulneráveis e descobrir e explorar vulnerabilidades de forma autônoma.

📖 Read the full source: HN AI Agents

Avaliação da AISI Mostra as Capacidades Cibernéticas da Prévia do Claude Mythos em CTF e Ataques de Múltiplas Etapas

Resultados de Capturar a Bandeira

Resultados do Cyber Range

Limitações e Contexto

👀 See Also

MCP Sandbox: Execute Servidores MCP em Contêineres Isolados Sem Confiar Neles

Vulnerabilidades de segurança expostas em aplicativo EdTech apresentado pela Lovable

Claw Hub e Hugging Face atingidos por 575 pacotes de habilidades maliciosos

Pico na Gravidade de CVE Após Lançamento do Mythos Preview do Claude — Dados da Epoch AI