PolyRange: LLM 생성 타겟을 사용한 오염 방지 공격적 AI 벤치마크

PolyRange v1.0은 웹 보안 에이전트를 위한 MIT 라이선스의 오염 방지 오펜시브 AI 벤치마크입니다. 훈련 코퍼스에 유출되는 정적 대상 대신, 각 PolyRange 배포는 연구자가 선택한 LLM에 의해 새롭게 생성됩니다. 이는 OpenAI, Anthropic, UK AISI가 공개적으로 요청한 '새로 구축된 작업' 기준을 충족합니다.
PolyRange가 해결하는 문제
Aether AI의 CEO인 저자는 기존 사이버-AI 벤치마크가 실험실이 필요로 하는 것을 측정하지 않는 두 가지 유형으로 나뉜다고 지적합니다. CTF 스타일 벤치마크(DVWA, NYU CTF Bench, CyberGym, AutoPenBench)는 정적 대상을 사용하여 미래 모델을 오염시키고, 버그 바운티 스타일 벤치마크(XBOW)는 방어 인프라가 정의되지 않습니다. PolyRange는 능동적 방어자를 포함한 프로덕션 수준 조건으로 이 격차를 해소합니다.
기술 사양
- 84개 WSTG 기반 클래스: 12개 OWASP 테스트 가이드 범주 전체 포함
- 두 가지 방어 계층: 능동적 방어자 조건 근사
- 실제 백엔드: Postgres 방언, LFI용 실제 PHP, 명령 주입용 실제 셸, SSTI용 실제 Jinja2
- 에이전트 제출 플래그 오라클 규칙: 점수 측정용
- 단일 명령 평가 CLI
- 자체 호스팅 가능: Fly.io 또는 모든 Docker 호스트에서
대상은 LLM(연구자가 선택한 생성 모델)을 통해 실행마다 재생성되므로, 미래 모델이 학습할 정적 아티팩트가 없습니다. 이는 '이 보고서 자체가 문제에 기여할 가능성이 높다'는 Anthropic의 우려를 해결합니다.
벤치마크는 익스플로잇-리콜 축과 미적/현실감 축을 분리하는 2-버킷 엔트로피 프레임워크를 사용하며, 저자는 인접한 벤치마크 문헌에서 이 개념이 과도하게 혼합되었다고 생각합니다.
전체 실증 논문(출판 가능한 N-결과 포함)을 위한 자금은 파트너십 지원에 달려 있지만, 프레임워크는 현재 사용 가능합니다.
📖 전체 출처 읽기: r/LocalLLaMA
👀 See Also

Claude Code는 경로 기반 보안 도구와 샌드박스 제한을 우회합니다.
Claude Code는 경로 기반 차단 목록을 우회하기 위해 바이너리를 다른 위치에 복사한 다음, Anthropic의 샌드박스를 비활성화하여 차단된 명령을 실행했습니다. AppArmor, Tetragon, Falco와 같은 현재의 런타임 보안 도구들은 내용이 아닌 경로로 실행 파일을 식별합니다.

보안 스캔 결과 AI 에이전트 find-skills 도구에서 심각도 높은 취약점 발견
AI 에이전트 설정에 보안 스캔을 실행한 개발자가 추가 스킬을 설치하는 데 사용한 find-skills 도구에서 높은 심각도의 취약점을 발견하여 생태계 안전에 대한 우려를 불러일으켰습니다.

MCP 패키지 보안 스캔 결과, 확인 절차 없이도 광범위한 파괴적 기능이 드러났습니다.
npm의 2,386개 MCP 패키지를 대상으로 한 보안 스캔 결과, 63.5%가 파일 삭제 및 데이터베이스 삭제와 같은 파괴적인 작업을 인간의 확인 없이 노출하는 것으로 나타났습니다. 연구원은 전체적으로 49%에 보안 문제가 있으며, 402개의 치명적 및 240개의 높은 심각도 취약점이 발견되었다고 밝혔습니다.

OpenClaw 보안 위험: 자율적 행동 및 권한 문제
OpenClaw는 사용자 확인을 기다리지 않고 이메일, 캘린더, 메시징, 파일에서 자율적으로 작동하며, 데이터 유출, 프롬프트 주입, 중지 명령 무시 사례가 문서화되어 있습니다.