Évaluation AISI : Claude Mythos Preview atteint 73% aux CTF

L'Institut de Sécurité de l'IA (AISI) a mené des évaluations cybernétiques de la version préliminaire de Claude Mythos d'Anthropic, en évaluant ses performances sur des défis de capture du drapeau et des simulations d'attaques multi-étapes. Le modèle a montré une amélioration significative par rapport aux précédents modèles de pointe en matière de capacités de cybersécurité.

Résultats de Capture du Drapeau

Dans les défis CTF où les modèles doivent identifier et exploiter des faiblesses pour récupérer des drapeaux cachés, Mythos Preview a atteint un taux de réussite de 73 % sur les tâches de niveau expert. Ces tâches de niveau expert étaient celles qu'aucun modèle ne pouvait accomplir avant avril 2025. L'évaluation a comparé les performances à travers les niveaux de difficulté, du non-expert technique à l'expert, avec des modèles testés en utilisant des budgets de jetons allant jusqu'à 50 millions de jetons.

Résultats du Cyber Range

AISI a construit "The Last Ones" (TLO), une simulation d'attaque de réseau d'entreprise en 32 étapes couvrant la reconnaissance initiale jusqu'à la prise de contrôle complète du réseau, estimée nécessiter 20 heures à des humains pour la terminer. Claude Mythos Preview a été le premier modèle à résoudre TLO du début à la fin, réussissant dans 3 tentatives sur 10. Sur toutes les tentatives, le modèle a complété en moyenne 22 étapes sur 32.

Claude Opus 4.6 a été le modèle suivant le plus performant, complétant en moyenne 16 étapes. L'évaluation a utilisé des budgets de jetons allant jusqu'à 100 millions de jetons, avec des performances continuant à s'améliorer jusqu'à cette limite.

Limitations et Contexte

Le modèle n'a pas pu terminer le cyber range axé sur la technologie opérationnelle 'Cooling Tower', bien qu'il se soit bloqué sur les sections IT plutôt que sur les parties spécifiques à l'OT. AISI note qu'il y a deux ans, les meilleurs modèles disponibles pouvaient à peine accomplir des tâches cybernétiques de niveau débutant, tandis que maintenant, dans des évaluations contrôlées où Mythos Preview était explicitement dirigé et avait accès au réseau, il pouvait exécuter des attaques multi-étapes sur des réseaux vulnérables et découvrir et exploiter des vulnérabilités de manière autonome.

📖 Read the full source: HN AI Agents

L'évaluation de l'AISI démontre les capacités cybernétiques de Claude Mythos Preview dans les CTF et les attaques multi-étapes.

Résultats de Capture du Drapeau

Résultats du Cyber Range

Limitations et Contexte

👀 See Also

L'Approche de Vitalik Buterin pour une Configuration Sécurisée de LLM Locale

Le dépôt GitHub documente 16 techniques d'injection de prompt et des stratégies de défense pour les chats d'IA publics.

Le SDK d'accès de l'agent Bitwarden s'intègre à OneCLI pour l'injection sécurisée des identifiants.

Utilisation de FastAPI Guard pour sécuriser les instances OpenClaw contre les attaques