AISI評価により、Claude MythosプレビューのCTFおよび多段階攻撃におけるサイバー能力が示される

✍️ OpenClawRadar📅 公開日: April 16, 2026🔗 Source
AISI評価により、Claude MythosプレビューのCTFおよび多段階攻撃におけるサイバー能力が示される
Ad

AIセキュリティ研究所(AISI)はAnthropicのClaude Mythos Previewについてサイバー評価を実施し、キャプチャー・ザ・フラッグ課題と多段階攻撃シミュレーションにおける性能を評価しました。このモデルは、サイバーセキュリティ能力において、従来のフロンティアモデルと比較して大幅な改善を示しました。

キャプチャー・ザ・フラッグの結果

モデルが隠されたフラッグを取得するために弱点を特定・悪用しなければならないCTF課題において、Mythos Previewは専門家レベルのタスクで73%の成功率を達成しました。これらの専門家レベルのタスクは、2025年4月以前にはどのモデルも完了できなかったものです。評価では、技術的非専門家から専門家までの難易度レベルにわたる性能を比較し、最大5,000万トークンのトークン予算を使用してモデルがテストされました。

サイバーレンジの結果

AISIは「The Last Ones」(TLO)という、初期偵察からネットワーク完全掌握までの32段階に及ぶ企業ネットワーク攻撃シミュレーションを構築しました。これは人間が完了するのに20時間を要すると推定されています。Claude Mythos Previewは、TLOを最初から最後まで解決した最初のモデルであり、10回中3回で成功しました。すべての試行を通じて、モデルは平均して32段階中22段階を完了しました。

次に性能が高かったのはClaude Opus 4.6で、平均16段階を完了しました。評価では最大1億トークンのトークン予算が使用され、性能はこの上限までスケールし続けました。

制限と背景

このモデルは、オペレーショナル・テクノロジーに焦点を当てたサイバーレンジ「Cooling Tower」を完了できませんでしたが、OT固有の部分ではなくITセクションで行き詰まりました。AISIは、2年前には利用可能な最良のモデルでも初心者レベルのサイバータスクをかろうじて完了できる程度だったのに対し、現在では、Mythos Previewが明示的に指示されネットワークアクセスを与えられた制御評価において、脆弱なネットワークに対する多段階攻撃を実行し、脆弱性を自律的に発見・悪用できることを指摘しています。

📖 Read the full source: HN AI Agents

Ad

👀 See Also

Claude Code VS Code拡張機能が閉じたファイルや新しいセッション間で選択状態を漏洩
Security

Claude Code VS Code拡張機能が閉じたファイルや新しいセッション間で選択状態を漏洩

Claude Code の VS Code 拡張機能のバグにより、ファイルを閉じた後もファイル選択状態がキャッシュされ、新しい CLI セッションに機密データ(例:Supabase のサービスロールキー)が漏洩します。完全な再現手順と GitHub イシュー #58886。

OpenClawRadar
ケールガード:OpenClawインスタンス向けオープンソースセキュリティスキャナー
Security

ケールガード:OpenClawインスタンス向けオープンソースセキュリティスキャナー

Caelguardは、OpenClaw向けに構築されたオープンソースのセキュリティスキャナーで、Dockerの分離、ツール権限のスコープ設定、スキルサプライチェーンの検証など、インスタンス全体で22のチェックを実行します。140点満点でスコアと評価グレード、具体的な修正手順を提供します。

OpenClawRadar
arifOS:OpenClawツールセキュリティのための1500万ドルMCPガバナンスカーネル
Security

arifOS:OpenClawツールセキュリティのための1500万ドルMCPガバナンスカーネル

arifOSは軽量なMCPサーバーで、OpenClawツール呼び出しを傍受し、000-999でスコアリングし、ファイルシステム、API、データベースに到達する前に13の厳格なセキュリティフロアで安全でないアクションをブロックします。

OpenClawRadar
🦀
Security

Google脅威インテリジェンスグループ、二要素認証を突破する初のAI開発ゼロデイエクスプロイトを報告

Google Threat Intelligence Groupは、人気のあるオープンソースのWebベースシステム管理ツールにおいて、2要素認証を回避する初の完全AI開発ゼロデイエクスプロイトを、自己変形マルウェアやGeminiを利用したバックドアと共に検出しました。

OpenClawRadar