Claude Mythos Preview: 73% CTF-Erfolg laut AISI-Bewertung

Das AI Security Institute (AISI) führte Cyber-Bewertungen von Anthropics Claude Mythos Preview durch und bewertete seine Leistung bei Capture-the-Flag-Herausforderungen und mehrstufigen Angriffssimulationen. Das Modell zeigte eine deutliche Verbesserung gegenüber früheren Spitzenmodellen in Bezug auf Cybersicherheitsfähigkeiten.

Capture-the-Flag-Ergebnisse

Bei CTF-Herausforderungen, bei denen Modelle Schwachstellen identifizieren und ausnutzen müssen, um versteckte Flags abzurufen, erzielte Mythos Preview eine Erfolgsquote von 73 % bei Aufgaben auf Expertenniveau. Diese Expertenaufgaben waren solche, die vor April 2025 kein Modell bewältigen konnte. Die Bewertung verglich die Leistung über verschiedene Schwierigkeitsgrade von technischem Nicht-Experten bis hin zu Experten, wobei Modelle mit Token-Budgets von bis zu 50 Millionen Token getestet wurden.

Cyber Range-Ergebnisse

AISI entwickelte "The Last Ones" (TLO), eine 32-stufige Simulation eines Unternehmensnetzwerkangriffs, die von der ersten Erkundung bis zur vollständigen Übernahme des Netzwerks reicht und für deren Abschluss Menschen schätzungsweise 20 Stunden benötigen würden. Claude Mythos Preview war das erste Modell, das TLO von Anfang bis Ende löste, und war in 3 von 10 Versuchen erfolgreich. Über alle Versuche hinweg absolvierte das Modell durchschnittlich 22 von 32 Schritten.

Claude Opus 4.6 war das nächstbeste Modell und schaffte durchschnittlich 16 Schritte. Die Bewertung nutzte Token-Budgets von bis zu 100 Millionen Token, wobei die Leistung bis zu dieser Grenze weiter skaliert wurde.

Einschränkungen und Kontext

Das Modell konnte die auf Betriebstechnologie fokussierte Cyber Range 'Cooling Tower' nicht abschließen, blieb jedoch eher an IT-Abschnitten als an OT-spezifischen Teilen hängen. AISI stellt fest, dass vor zwei Jahren die besten verfügbaren Modelle kaum Cyber-Aufgaben auf Anfängerniveau bewältigen konnten, während sie nun in kontrollierten Bewertungen, in denen Mythos Preview explizit angewiesen und Netzwerkzugriff gewährt wurde, mehrstufige Angriffe auf anfällige Netzwerke ausführen und Schwachstellen autonom entdecken und ausnutzen konnte.

📖 Read the full source: HN AI Agents

AISI-Bewertung zeigt Claude Mythos Preview Cyber-Fähigkeiten in CTF und mehrstufigen Angriffen

Capture-the-Flag-Ergebnisse

Cyber Range-Ergebnisse

Einschränkungen und Kontext

👀 Siehe auch

Trojan in Claude Flow-Repository-Skill.md-Dateien gefunden

域伪装注入攻击规避多智能体LLM系统中的检测器

OneCLI: Open-Source Credential Vault für KI-Agenten

LLMs können anonyme Forenbenutzer mit 68% Genauigkeit bei 90% Präzision identifizieren.