PolyRange: Устойчивый к загрязнению бенчмарк для атакующего ИИ с целями, сгенерированными LLM

PolyRange v1.0 — это бенчмарк для оффенсивного AI в области веб-безопасности с лицензией MIT, устойчивый к загрязнению данных. В отличие от статичных целей, которые просачиваются в обучающие корпусы, каждый развернутый экземпляр PolyRange создается заново с помощью LLM по выбору исследователя, удовлетворяя критерию «новые задачи», который OpenAI, Anthropic и UK AISI публично запрашивали.
Что решает PolyRange
Автор, генеральный директор Aether AI, отмечает, что существующие кибер-AI бенчмарки делятся на две категории, которые не измеряют то, что нужно лабораториям: бенчмарки типа CTF (DVWA, NYU CTF Bench, CyberGym, AutoPenBench) используют статичные цели, загрязняющие будущие модели, а бенчмарки типа bug-bounty (XBOW) имеют неопределенную защитную инфраструктуру. PolyRange заполняет этот пробел условиями, приближенными к продакшну, включая активных защитников.
Технические характеристики
- 84 класса, производных от WSTG, охватывающих все 12 категорий руководства по тестированию OWASP
- Два уровня защиты, приближенных к условиям активного защитника
- Реальные бэкенды: диалекты Postgres, настоящий PHP для LFI, настоящий shell для внедрения команд, настоящий Jinja2 для SSTI
- Конвенция оракула «агент отправляет флаг» для подсчета очков
- CLI оценки одной командой
- Самостоятельное размещение на Fly.io или любом Docker-хосте
Поскольку цели генерируются заново при каждом запуске с помощью LLM (модель-генератор выбирается исследователем), не существует статичного артефакта, который могли бы поглотить будущие модели, что решает проблему, поднятую Anthropic: «этот отчет, скорее всего, сам усугубит проблему».
Бенчмарк использует двухкорзинное энтропийное фреймирование, разделяющее оси эксплуатации/вспоминания от осей внешнего вида/реализма, что, по мнению автора, чрезмерно смешивается в смежной литературе.
Финансирование полной эмпирической статьи (с публикуемыми результатами N) зависит от партнерского финансирования, но фреймворк уже доступен.
📖 Читать полный источник: r/LocalLLaMA
👀 Смотрите также

Уязвимость в Snowflake Cortex Code CLI позволяла обходить песочницу и выполнять вредоносный код
Уязвимость в Snowflake Cortex Code CLI версии 1.0.25 и более ранних позволяла выполнять произвольные команды без одобрения человека через обход подстановки процессов, что позволяло устанавливать вредоносное ПО и выходить из песочницы с помощью косвенной инъекции промптов.

Nullgaze: Выпущен открытую исходный код сканер безопасности с поддержкой ИИ.
Nullgaze — это новый открытый проект, поддерживаемый ИИ, который сканирует безопасность и выявляет уязвимости, специфичные для кода, сгенерированного ИИ, с почти нулевым количеством ложных срабатываний.

KnightClaw: Локальное расширение безопасности для агентов OpenClaw
KnightClaw — это расширение, которое перехватывает сообщения до их попадания к агентам OpenClaw, предоставляя 8-уровневую гибридную систему обнаружения и редактирование исходящих данных. Оно работает полностью локально, без телеметрии, и имеет лицензию MIT.

Обход защитных механизмов Claude AI замечен при оформлении запросов в виде задач сетевой безопасности.
Пользователь Reddit обнаружил, что ИИ Claude предоставляет списки пиратских доменов, когда запросы формулируются как задачи сетевой безопасности для блокировки, обходя обычные механизмы отказа. Модель признала неправильную интерпретацию намерений после того, как пользователь указал на влияние формулировки.