오픈소스 AI 에이전트 레드팀링 플레이그라운드 (공개된 익스플로잇 포함)

이것이 무엇인가요
Fabraix Playground는 적대적 도전을 통해 AI 에이전트를 레드팀 테스트할 수 있는 오픈소스 환경입니다. 이는 가드레일 테스트를 위한 내부 도구로 시작되었으나, 다양한 취약점 관점을 얻기 위해 오픈소스로 공개되었습니다.
작동 방식
각 도전은 다음과 같은 라이브 AI 에이전트를 배포합니다:
- 특정 페르소나
- 실제 도구 세트 (웹 검색, 브라우징 등)
- 보호하도록 지시받은 대상
- 완전히 공개된 시스템 프롬프트
목표는 가드레일을 우회하는 방법을 찾는 것입니다. 누군가 성공하면, 접근 방식, 추론 과정, 전체 대화 기록을 포함한 성공적인 기술이 공개됩니다.
프로젝트 구조
/src— React 프론트엔드 (TypeScript, Vite, Tailwind)/challenges— 모든 도전 구성 및 시스템 프롬프트, 버전 관리 및 공개- 가드레일 평가는 클라이언트 측 변조를 방지하기 위해 서버 측에서 실행
- 에이전트 런타임은 별도로 오픈소스화 예정
로컬 개발
로컬에서 실행하려면:
npm install
npm run dev기본적으로 라이브 API에 연결됩니다. 로컬 백엔드에 대해 개발하려면:
VITE_API_URL=http://localhost:8000/v1 npm run dev도전 예시
첫 번째 도전은 에이전트가 절대 호출하지 말라고 지시받은 도구를 호출하게 만드는 것이었습니다. 누군가가 비밀을 직접 요청하지 않고 약 60초 만에 성공했습니다. 다음 도전은 더 강력한 방어 체계를 갖춘 데이터 유출에 초점을 맞춥니다.
커뮤니티가 테스트 대상을 결정합니다: 누구나 도전(시나리오, 에이전트, 목표)을 제안할 수 있으며, 커뮤니티가 투표하고, 가장 많은 표를 받은 도전이 시계를 돌리며 라이브로 진행됩니다. 가장 빠른 성공적인 탈옥이 승리합니다.
기술적 세부사항
이 프로젝트는 TypeScript (76.5%), CSS (22.2%), 기타 언어 (1.3%)로 구축되었습니다. MIT 라이선스를 사용하며, 기술 논의와 접근법 공유를 위한 Discord 커뮤니티가 있습니다.
📖 전체 소스 읽기: HN AI Agents
👀 See Also

MCP 서버 CVE 노출 매핑 및 공용 API 출시
연구자들은 수천 개의 MCP 서버에 대한 CVE 노출 현황을 매핑하고 의존성 취약점을 조회할 수 있는 공개 API를 구축했습니다. 이 API를 통해 저장소/이름으로 검색하고, 심각도별로 필터링하며, CVE 개수나 최신순으로 정렬할 수 있습니다.

Hackerbot-Claw: GitHub Actions 워크플로우를 악용하는 AI 봇
hackerbot-claw라는 AI 기반 봇이 CI/CD 파이프라인을 대상으로 일주일간 자동화된 공격 캠페인을 실행하여 Microsoft, DataDog, CNCF 프로젝트를 포함한 최소 6개 대상 중 4개에서 원격 코드 실행을 달성했습니다. 이 봇은 5가지 다른 악용 기법을 사용했으며 쓰기 권한이 있는 GitHub 토큰을 외부로 유출했습니다.

LLM은 익명 포럼 사용자를 90% 정밀도로 68% 정확도로 식별할 수 있습니다.
연구진이 Hacker News와 Reddit의 게시물을 분석하기 위해 Gemini와 ChatGPT를 사용하여 90% 정확도로 익명 사용자의 68%를 식별했습니다. 이 모델들은 인간이 몇 시간이 걸리거나 불가능한 작업을 몇 분 만에 완료했습니다.

LLM 에이전트의 도구 권한 주입: 도구 출력이 시스템 의도를 무시할 때
한 연구자가 로컬 LLM 에이전트 실험실을 구축하여 '도구 권한 주입'을 시연했습니다. 이는 AI 에이전트에서 도구 출력이 시스템 의도를 재정의하는 시나리오입니다.