Avaliação da AISI Mostra as Capacidades Cibernéticas da Prévia do Claude Mythos em CTF e Ataques de Múltiplas Etapas

O Instituto de Segurança de IA (AISI) conduziu avaliações cibernéticas da versão prévia do Claude Mythos da Anthropic, analisando seu desempenho em desafios de capturar a bandeira e simulações de ataques de múltiplas etapas. O modelo mostrou uma melhoria significativa em relação aos modelos de fronteira anteriores em capacidades de segurança cibernética.
Resultados de Capturar a Bandeira
Nos desafios de CTF, onde os modelos devem identificar e explorar vulnerabilidades para recuperar bandeiras ocultas, a versão prévia do Mythos alcançou uma taxa de sucesso de 73% em tarefas de nível especialista. Essas tarefas de nível especialista eram aquelas que nenhum modelo poderia completar antes de abril de 2025. A avaliação comparou o desempenho em diferentes níveis de dificuldade, desde o não especialista técnico até o especialista, com os modelos testados usando orçamentos de token de até 50 milhões de tokens.
Resultados do Cyber Range
O AISI construiu "The Last Ones" (TLO), uma simulação de ataque a uma rede corporativa de 32 etapas, abrangendo desde a reconhecimento inicial até a tomada completa da rede, estimada para exigir 20 horas de trabalho humano para ser concluída. A versão prévia do Claude Mythos foi o primeiro modelo a resolver o TLO do início ao fim, obtendo sucesso em 3 de 10 tentativas. Em todas as tentativas, o modelo completou em média 22 das 32 etapas.
O Claude Opus 4.6 foi o próximo modelo com melhor desempenho, completando em média 16 etapas. A avaliação usou orçamentos de token de até 100 milhões de tokens, com o desempenho continuando a escalar até esse limite.
Limitações e Contexto
O modelo não conseguiu completar o cyber range focado em tecnologia operacional 'Cooling Tower', embora tenha travado nas seções de TI em vez das partes específicas de OT. O AISI observa que, há dois anos, os melhores modelos disponíveis mal conseguiam completar tarefas cibernéticas de nível iniciante, enquanto agora, em avaliações controladas onde a versão prévia do Mythos foi explicitamente direcionada e recebeu acesso à rede, ele pôde executar ataques de múltiplos estágios em redes vulneráveis e descobrir e explorar vulnerabilidades de forma autônoma.
📖 Read the full source: HN AI Agents
👀 See Also

Agente Hush: Ferramenta de código aberto impede que agentes de IA de programação vazem dados confidenciais
Agent Hush é uma ferramenta de código aberto que captura dados sensíveis antes que saiam da sua máquina, criada após o agente de IA de um desenvolvedor vazar chaves de API, IPs de servidor e informações pessoais para um repositório público do GitHub enquanto construía um projeto de segurança.

Hospede com Segurança o OpenClaw em um VPS com Tailscale e Mais
Configure o OpenClaw de forma segura em um VPS usando Tailscale, fail2ban, UFW e mais, evitando exposição pública e fortalecendo a defesa.

Pesquisadores de Segurança em IA: Suas Vulnerabilidades de Dia Zero Podem Vazar pelo Botão de Consentimento de Dados
A opção 'Melhorar o modelo para todos' nas interfaces de LLM pode automaticamente coletar pesquisas profundas de red teaming, enviando seus conceitos de vulnerabilidade para as equipes de segurança dos fornecedores e potencialmente para artigos acadêmicos antes de você publicar. Desative o compartilhamento de dados antes de realizar pesquisas sérias de segurança.

Nullgaze: Scanner de Segurança com Suporte de IA de Código Aberto Lançado
Nullgaze é um novo scanner de segurança de código aberto com suporte de IA que detecta vulnerabilidades específicas para código gerado por IA, apresentando quase zero falsos positivos.