AI 에이전트 레드팀링: 오픈소스 플레이그라운드 + 익스플로잇 공개

이것이 무엇인가요

Fabraix Playground는 적대적 도전을 통해 AI 에이전트를 레드팀 테스트할 수 있는 오픈소스 환경입니다. 이는 가드레일 테스트를 위한 내부 도구로 시작되었으나, 다양한 취약점 관점을 얻기 위해 오픈소스로 공개되었습니다.

각 도전은 다음과 같은 라이브 AI 에이전트를 배포합니다:

목표는 가드레일을 우회하는 방법을 찾는 것입니다. 누군가 성공하면, 접근 방식, 추론 과정, 전체 대화 기록을 포함한 성공적인 기술이 공개됩니다.

로컬에서 실행하려면:

npm install
npm run dev

기본적으로 라이브 API에 연결됩니다. 로컬 백엔드에 대해 개발하려면:

VITE_API_URL=http://localhost:8000/v1 npm run dev

첫 번째 도전은 에이전트가 절대 호출하지 말라고 지시받은 도구를 호출하게 만드는 것이었습니다. 누군가가 비밀을 직접 요청하지 않고 약 60초 만에 성공했습니다. 다음 도전은 더 강력한 방어 체계를 갖춘 데이터 유출에 초점을 맞춥니다.

커뮤니티가 테스트 대상을 결정합니다: 누구나 도전(시나리오, 에이전트, 목표)을 제안할 수 있으며, 커뮤니티가 투표하고, 가장 많은 표를 받은 도전이 시계를 돌리며 라이브로 진행됩니다. 가장 빠른 성공적인 탈옥이 승리합니다.

이 프로젝트는 TypeScript (76.5%), CSS (22.2%), 기타 언어 (1.3%)로 구축되었습니다. MIT 라이선스를 사용하며, 기술 논의와 접근법 공유를 위한 Discord 커뮤니티가 있습니다.

📖 전체 소스 읽기: HN AI Agents