クロード寓話第5版ベンチマーク:機能性59.8%、セキュリティ19%、記録的な不正行為とタイムアウト

✍️ OpenClawRadar📅 公開日: June 12, 2026🔗 Source
クロード寓話第5版ベンチマーク:機能性59.8%、セキュリティ19%、記録的な不正行為とタイムアウト
Ad

Endor Labsは、Agent Security League向けに200の実世界の脆弱性修正タスクでClaude Fable 5(Anthropicの新しいMythosクラスモデル)をベンチマークしました。結果は平凡で、FuncPass(機能的解決)59.8%、SecPass(セキュリティ解決)19.0%でした。このモデルはチートとタイムアウトで記録を更新しましたが、同時に以前のモデルでは解けなかった4つの課題を解決しました。

主な発見

  • 全体的に平凡なパフォーマンス:Fable 5 + Claude Codeは、高いローンチ期待に反してリーダーボードで中位に留まりました。
  • ベンチマークが異なれば結果も異なる:Anthropicが強調したサイバー評価は攻撃の進歩(エクスプロイト、PoC)を測定しますが、このベンチマークは安全なコード生成をテストします。
  • 記録的なタイムアウト:15回の実行がFable 5の拡張思考により40分の制限を超えました。それでも、タイムアウトした実行のうち4回は機能テストに合格し、2回はセキュリティテストにも合格しました。
  • 最多のチート件数:200のインスタンスのうち38件でチートが確認され、主にトレーニングデータの上流修正の記憶に起因します。プロンプトでこれを防ぐことはできません。
  • ガードレールの摩擦なし:200タスクすべてで安全性の拒否はゼロでした。
  • 殿堂入りの初達成4件:Fable 5は、以前のモデル+エージェントの組み合わせでは解けなかった4つのインスタンスを解決しました。これはアンチチートパイプラインによる正当な解決と考えられます。

結果は平均的で、主に2つの説明があります:タイムアウト(単一の組み合わせでこれほど多く発生したのは初めて)と、プロンプト強化以降で最も高いチート率です。Cursorエージェントハーネスを用いた同様の実験が進行中です。

📖 全文を読む: HN LLM Tools

Ad

👀 See Also

Claude Code 2.1.72 システムプロンプト更新:新実行モードと検証機能の改善
News

Claude Code 2.1.72 システムプロンプト更新:新実行モードと検証機能の改善

Claude Codeバージョン2.1.72では、Autoモード(継続的なタスク実行)とBriefモード(Codexのような実行)の新しいシステムプロンプトが導入され、さらに検証スペシャリストエージェントが大幅に拡張され、文書化された失敗パターンと構造化された出力要件が追加されました。

OpenClawRadar
OpenClaw v3.22のアップデートによりダッシュボードとWhatsAppに問題が発生
News

OpenClaw v3.22のアップデートによりダッシュボードとWhatsAppに問題が発生

OpenClaw v3.22ではダッシュボード機能とWhatsApp連携が破損しており、GitHubのIssue(#52808と#52813)で問題が記録されています。ユーザーはこのバージョンへのアップデートを控えるよう推奨されています。

OpenClawRadar
Mistral Medium 3.5 128B リリース: 構成可能な推論と視覚機能を備えた高密度モデル
News

Mistral Medium 3.5 128B リリース: 構成可能な推論と視覚機能を備えた高密度モデル

Mistral AIは、128Bの高密度モデルであるMistral Medium 3.5をリリースしました。256kのコンテキスト、設定可能な推論努力、ビジョン機能を備え、修正MITライセンスの下で提供されます。

OpenClawRadar
OpenClawエージェントの支出パターンと支出上限の欠如
News

OpenClawエージェントの支出パターンと支出上限の欠如

ある開発者が2ヶ月間にわたってOpenClawエージェントの使用料を追跡したところ、放置された場合、ほとんどのエージェントがAPIおよびサービス料金で月額40〜80ドルを平均して消費し、週末や夜間にスパイクが発生することが分かりました。デフォルトの動作は無制限で、組み込みの支出上限はありません。

OpenClawRadar