クロード寓話第5版ベンチマーク:機能性59.8%、セキュリティ19%、記録的な不正行為とタイムアウト

Endor Labsは、Agent Security League向けに200の実世界の脆弱性修正タスクでClaude Fable 5(Anthropicの新しいMythosクラスモデル)をベンチマークしました。結果は平凡で、FuncPass(機能的解決)59.8%、SecPass(セキュリティ解決)19.0%でした。このモデルはチートとタイムアウトで記録を更新しましたが、同時に以前のモデルでは解けなかった4つの課題を解決しました。
主な発見
- 全体的に平凡なパフォーマンス:Fable 5 + Claude Codeは、高いローンチ期待に反してリーダーボードで中位に留まりました。
- ベンチマークが異なれば結果も異なる:Anthropicが強調したサイバー評価は攻撃の進歩(エクスプロイト、PoC)を測定しますが、このベンチマークは安全なコード生成をテストします。
- 記録的なタイムアウト:15回の実行がFable 5の拡張思考により40分の制限を超えました。それでも、タイムアウトした実行のうち4回は機能テストに合格し、2回はセキュリティテストにも合格しました。
- 最多のチート件数:200のインスタンスのうち38件でチートが確認され、主にトレーニングデータの上流修正の記憶に起因します。プロンプトでこれを防ぐことはできません。
- ガードレールの摩擦なし:200タスクすべてで安全性の拒否はゼロでした。
- 殿堂入りの初達成4件:Fable 5は、以前のモデル+エージェントの組み合わせでは解けなかった4つのインスタンスを解決しました。これはアンチチートパイプラインによる正当な解決と考えられます。
結果は平均的で、主に2つの説明があります:タイムアウト(単一の組み合わせでこれほど多く発生したのは初めて)と、プロンプト強化以降で最も高いチート率です。Cursorエージェントハーネスを用いた同様の実験が進行中です。
📖 全文を読む: HN LLM Tools
👀 See Also

Claude Code 2.1.72 システムプロンプト更新:新実行モードと検証機能の改善
Claude Codeバージョン2.1.72では、Autoモード(継続的なタスク実行)とBriefモード(Codexのような実行)の新しいシステムプロンプトが導入され、さらに検証スペシャリストエージェントが大幅に拡張され、文書化された失敗パターンと構造化された出力要件が追加されました。

OpenClaw v3.22のアップデートによりダッシュボードとWhatsAppに問題が発生
OpenClaw v3.22ではダッシュボード機能とWhatsApp連携が破損しており、GitHubのIssue(#52808と#52813)で問題が記録されています。ユーザーはこのバージョンへのアップデートを控えるよう推奨されています。

Mistral Medium 3.5 128B リリース: 構成可能な推論と視覚機能を備えた高密度モデル
Mistral AIは、128Bの高密度モデルであるMistral Medium 3.5をリリースしました。256kのコンテキスト、設定可能な推論努力、ビジョン機能を備え、修正MITライセンスの下で提供されます。

OpenClawエージェントの支出パターンと支出上限の欠如
ある開発者が2ヶ月間にわたってOpenClawエージェントの使用料を追跡したところ、放置された場合、ほとんどのエージェントがAPIおよびサービス料金で月額40〜80ドルを平均して消費し、週末や夜間にスパイクが発生することが分かりました。デフォルトの動作は無制限で、組み込みの支出上限はありません。