PolyRange v1.0: LLM-генерируемый кибер-AI бенчмарк

PolyRange v1.0 — это бенчмарк для оффенсивного AI в области веб-безопасности с лицензией MIT, устойчивый к загрязнению данных. В отличие от статичных целей, которые просачиваются в обучающие корпусы, каждый развернутый экземпляр PolyRange создается заново с помощью LLM по выбору исследователя, удовлетворяя критерию «новые задачи», который OpenAI, Anthropic и UK AISI публично запрашивали.

Что решает PolyRange

Автор, генеральный директор Aether AI, отмечает, что существующие кибер-AI бенчмарки делятся на две категории, которые не измеряют то, что нужно лабораториям: бенчмарки типа CTF (DVWA, NYU CTF Bench, CyberGym, AutoPenBench) используют статичные цели, загрязняющие будущие модели, а бенчмарки типа bug-bounty (XBOW) имеют неопределенную защитную инфраструктуру. PolyRange заполняет этот пробел условиями, приближенными к продакшну, включая активных защитников.

Технические характеристики

84 класса, производных от WSTG, охватывающих все 12 категорий руководства по тестированию OWASP
Два уровня защиты, приближенных к условиям активного защитника
Реальные бэкенды: диалекты Postgres, настоящий PHP для LFI, настоящий shell для внедрения команд, настоящий Jinja2 для SSTI
Конвенция оракула «агент отправляет флаг» для подсчета очков
CLI оценки одной командой
Самостоятельное размещение на Fly.io или любом Docker-хосте

Поскольку цели генерируются заново при каждом запуске с помощью LLM (модель-генератор выбирается исследователем), не существует статичного артефакта, который могли бы поглотить будущие модели, что решает проблему, поднятую Anthropic: «этот отчет, скорее всего, сам усугубит проблему».

Бенчмарк использует двухкорзинное энтропийное фреймирование, разделяющее оси эксплуатации/вспоминания от осей внешнего вида/реализма, что, по мнению автора, чрезмерно смешивается в смежной литературе.

Финансирование полной эмпирической статьи (с публикуемыми результатами N) зависит от партнерского финансирования, но фреймворк уже доступен.

📖 Читать полный источник: r/LocalLLaMA

PolyRange: Устойчивый к загрязнению бенчмарк для атакующего ИИ с целями, сгенерированными LLM

Что решает PolyRange

Технические характеристики

👀 Смотрите также

Защита инфраструктуры OpenClaw с помощью прокси-сервера Pomerium, осознающего идентификацию.

Ward: Инструмент с открытым исходным кодом перехватывает команды npm install, чтобы блокировать атаки через цепочку поставок для пользователей Claude Code.

Критическая уязвимость удаленного выполнения кода (RCE) в библиотеке protobuf.js

Клод Код обнаружил бэкдор вредоносного ПО в репозитории GitHub во время технического аудита