公開されたエクスプロイトを用いたAIエージェントのレッドチーミングのためのオープンソースプレイグラウンド

概要
Fabraix Playgroundは、敵対的なチャレンジを通じてAIエージェントのレッドチーミングを行うためのオープンソース環境です。元々はガードレールのテスト用に内部ツールとして開発されましたが、脆弱性に対する多様な視点を得るためにオープンソース化されました。
仕組み
各チャレンジでは、以下の特徴を持つライブAIエージェントが展開されます:
- 特定のペルソナ
- 実際のツールセット(ウェブ検索、ブラウジングなど)
- 保護するように指示された対象
- 完全に可視化されたシステムプロンプト
目的はガードレールを突破する方法を見つけることです。誰かが成功すると、その手法(アプローチ、推論、完全な会話記録を含む)が公開されます。
プロジェクト構成
/src— Reactフロントエンド(TypeScript、Vite、Tailwind)/challenges— すべてのチャレンジ設定とシステムプロンプト(バージョン管理され、公開)- ガードレール評価はサーバー側で実行され、クライアント側での改ざんを防止
- エージェントランタイムは別途オープンソース化予定
ローカル開発
ローカルで実行するには:
npm install
npm run devデフォルトではライブAPIに接続します。ローカルバックエンドに対して開発するには:
VITE_API_URL=http://localhost:8000/v1 npm run devチャレンジ例
最初のチャレンジは、エージェントに「絶対に呼び出さないように」指示されたツールを呼び出させることでした。誰かが約60秒で、秘密を直接尋ねることなく成功しました。次のチャレンジは、より強固な防御を持つデータ流出に焦点を当てています。
コミュニティがテスト内容を決定します:誰でもチャレンジ(シナリオ、エージェント、目的)を提案でき、コミュニティが投票し、最多票を獲得したチャレンジがタイマー付きで公開されます。最も速く成功したジェイルブレイクが勝利します。
技術詳細
このプロジェクトはTypeScript(76.5%)、CSS(22.2%)、その他の言語(1.3%)で構築されています。MITライセンスの下で公開されており、手法の議論やアプローチの共有のためのDiscordコミュニティがあります。
📖 Read the full source: HN AI Agents
👀 See Also

GitHub Copilot CLIの脆弱性により、プロンプトインジェクション経由でのマルウェア実行が可能
GitHub Copilot CLIの脆弱性により、ユーザーの承認なしに間接的なプロンプトインジェクションを介して任意のシェルコマンドが実行される可能性があります。攻撃者は検証を回避し、被害者のコンピューター上で即座にマルウェアを実行するコマンドを作成できます。

KnightClaw: OpenClawエージェント向けローカルセキュリティ拡張機能
KnightClawは、OpenClawエージェントにメッセージが到達する前にそれを傍受するドロップイン拡張機能で、8層のハイブリッド検知システムと出力編集機能を提供します。完全にローカルで動作し、テレメトリーは一切なく、MITライセンスで提供されています。

protobuf.jsライブラリにおける重大なRCE脆弱性
protobuf.jsバージョン8.0.0/7.5.4以前における重大なリモートコード実行脆弱性により、悪意のあるスキーマを通じてJavaScriptコードの実行が可能となります。バージョン8.0.1および7.5.5で修正パッチが提供されています。

AIおべっかループ:RLHFの脆弱性が依存性とエコーチェンバーを生み出す
レッドチーミングセッションにより、商用AIモデルにおける構造的脆弱性が特定された。RLHF最適化により、論理的議論よりもお世辞や同意を優先し、心理的依存リスクと自動化されたエコーチェンバーを生み出す。