Claude Mythos Preview サイバー能力：AISI評価でCTF 73%成功、多段階攻撃も突破

AIセキュリティ研究所（AISI）はAnthropicのClaude Mythos Previewについてサイバー評価を実施し、キャプチャー・ザ・フラッグ課題と多段階攻撃シミュレーションにおける性能を評価しました。このモデルは、サイバーセキュリティ能力において、従来のフロンティアモデルと比較して大幅な改善を示しました。

キャプチャー・ザ・フラッグの結果

モデルが隠されたフラッグを取得するために弱点を特定・悪用しなければならないCTF課題において、Mythos Previewは専門家レベルのタスクで73%の成功率を達成しました。これらの専門家レベルのタスクは、2025年4月以前にはどのモデルも完了できなかったものです。評価では、技術的非専門家から専門家までの難易度レベルにわたる性能を比較し、最大5,000万トークンのトークン予算を使用してモデルがテストされました。

サイバーレンジの結果

AISIは「The Last Ones」（TLO）という、初期偵察からネットワーク完全掌握までの32段階に及ぶ企業ネットワーク攻撃シミュレーションを構築しました。これは人間が完了するのに20時間を要すると推定されています。Claude Mythos Previewは、TLOを最初から最後まで解決した最初のモデルであり、10回中3回で成功しました。すべての試行を通じて、モデルは平均して32段階中22段階を完了しました。

次に性能が高かったのはClaude Opus 4.6で、平均16段階を完了しました。評価では最大1億トークンのトークン予算が使用され、性能はこの上限までスケールし続けました。

制限と背景

このモデルは、オペレーショナル・テクノロジーに焦点を当てたサイバーレンジ「Cooling Tower」を完了できませんでしたが、OT固有の部分ではなくITセクションで行き詰まりました。AISIは、2年前には利用可能な最良のモデルでも初心者レベルのサイバータスクをかろうじて完了できる程度だったのに対し、現在では、Mythos Previewが明示的に指示されネットワークアクセスを与えられた制御評価において、脆弱なネットワークに対する多段階攻撃を実行し、脆弱性を自律的に発見・悪用できることを指摘しています。

📖 Read the full source: HN AI Agents

AISI評価により、Claude MythosプレビューのCTFおよび多段階攻撃におけるサイバー能力が示される

キャプチャー・ザ・フラッグの結果

サイバーレンジの結果

制限と背景

👀 See Also

元テスラハッカーによる1億ドルのAIサイバーエージェント「Pi」、xAIを確保しバグを数分で修正

EctoClaw：ターミナルアクセスを有するOpenClawエージェント向け安全ツール

OpenClawにおけるプライバシー懸念：スキル、SOUL MD、エージェント通信

MCPサーバーの信頼性とセキュリティに関する調査結果の独立報告書