PolyRange: LLM生成ターゲットによる耐汚染性攻撃的AIベンチマーク

PolyRange v1.0は、MITライセンスの自己ホスト型ベンチマークで、Webセキュリティエージェント向けの汚染耐性を持つ攻撃型AIベンチマークです。トレーニングデータに漏れる静的ターゲットではなく、各PolyRangeデプロイは研究者が選択したLLMによって新たに生成され、OpenAI、Anthropic、UK AISIが公に求めた「新しく構築されたタスク」の基準を満たしています。
PolyRangeが解決する課題
著者であるAether AIのCEOは、既存のサイバーAIベンチマークには研究室が必要とするものを測定しない2つのタイプがあると指摘しています:CTFスタイル(DVWA、NYU CTF Bench、CyberGym、AutoPenBench)は静的ターゲットを使用するため将来のモデルを汚染し、バグバウンティスタイル(XBOW)は防御インフラが未定義です。PolyRangeは、アクティブな防御者を含む本番環境に近い条件でこのギャップを埋めます。
技術仕様
- 84のWSTG由来クラス:全12のOWASPテストガイドカテゴリにわたる
- 2段階の防御層:アクティブ防御環境を近似
- 実際のバックエンド:Postgres方言、LFI用の実PHP、コマンドインジェクション用の実シェル、SSTI用の実Jinja2
- エージェントがフラグを送信するオラクル規約:スコアリング用
- 単一コマンドの評価CLI
- 自己ホスト可能:Fly.ioまたは任意のDockerホスト上で
ターゲットはLLM(研究者が選択した生成モデル)によって実行ごとに再生成されるため、静的アーティファクトは存在せず、将来のモデルが取り込むことはありません。これにより、Anthropicが「このレポート自体が問題に寄与する可能性が高い」と懸念した点に対処しています。
このベンチマークは、2バケットのエントロピーフレームワークを使用し、エクスプロイト想起軸と外観/リアリズム軸を分離しており、著者はこれが類似のベンチマーク文献で過度に混同されていると考えています。
完全な実証論文(公表可能なN数を含む)の資金はパートナーシップ資金に依存していますが、フレームワークは現在利用可能です。
📖 ソース全文: r/LocalLLaMA
👀 See Also

ケールガード:OpenClawスキル用のオープンソースセキュリティスキャナー
Caelguardは、MITライセンスのローカル実行型スキャナーで、OpenClawスキルにおけるプロンプトインジェクション、認証情報の収集、難読化されたペイロードなどのセキュリティ問題を検出します。研究によると、公開されているスキルの約20%に懸念すべきパターンが含まれています。

OneCLI:AIエージェント向けオープンソース認証情報保管庫
OneCLIは、AIエージェントと外部サービスの間に位置するRustで書かれたオープンソースのゲートウェイで、リクエスト時に実際の認証情報を注入し、エージェントにはプレースホルダーキーのみを表示します。AES-256-GCM暗号化ストレージを提供し、組み込みのPGliteを備えた単一のDockerコンテナで動作し、HTTPS_PROXYを設定できるあらゆるエージェントフレームワークと連携します。

スキルアナライザーがClawHubで利用可能になり、ワンコマンドインストールで導入できます。
OpenClaw Skill Analyzerセキュリティスキャナーが、ClawHubでワンコマンドインストール可能になりました。このツールは、プロンプトインジェクションや資格情報窃取などの悪意のあるパターンをスキルフォルダからスキャンし、安全な実行のためのDockerサンドボックスサポートも含まれています。

クロード・ケージ:ClaudeコードセキュリティのためのDockerサンドボックス
開発者がClaude CageというDockerコンテナを作成し、Claude Codeを単一のワークスペースフォルダに隔離することで、SSHキー、AWS認証情報、個人ファイルへのアクセスを防止します。このセットアップにはセキュリティルールが含まれており、Dockerがインストールされていれば約2分で完了します。