Fabraix：AIエージェントレッドチーミングのためのオープンソースプレイグラウンド

概要

Fabraix Playgroundは、敵対的なチャレンジを通じてAIエージェントのレッドチーミングを行うためのオープンソース環境です。元々はガードレールのテスト用に内部ツールとして開発されましたが、脆弱性に対する多様な視点を得るためにオープンソース化されました。

各チャレンジでは、以下の特徴を持つライブAIエージェントが展開されます：

目的はガードレールを突破する方法を見つけることです。誰かが成功すると、その手法（アプローチ、推論、完全な会話記録を含む）が公開されます。

ローカルで実行するには：

npm install
npm run dev

デフォルトではライブAPIに接続します。ローカルバックエンドに対して開発するには：

VITE_API_URL=http://localhost:8000/v1 npm run dev

最初のチャレンジは、エージェントに「絶対に呼び出さないように」指示されたツールを呼び出させることでした。誰かが約60秒で、秘密を直接尋ねることなく成功しました。次のチャレンジは、より強固な防御を持つデータ流出に焦点を当てています。

コミュニティがテスト内容を決定します：誰でもチャレンジ（シナリオ、エージェント、目的）を提案でき、コミュニティが投票し、最多票を獲得したチャレンジがタイマー付きで公開されます。最も速く成功したジェイルブレイクが勝利します。

このプロジェクトはTypeScript（76.5%）、CSS（22.2%）、その他の言語（1.3%）で構築されています。MITライセンスの下で公開されており、手法の議論やアプローチの共有のためのDiscordコミュニティがあります。

📖 Read the full source: HN AI Agents