Открытая площадка для тестирования на проникновение ИИ-агентов с опубликованными уязвимостями.

✍️ OpenClawRadar📅 Опубликовано: 16 марта 2026 г.🔗 Source

Что это такое

Fabraix Playground — это среда с открытым исходным кодом для «красного командирования» ИИ-агентов через состязательные испытания. Она начиналась как внутренний инструмент для тестирования защитных механизмов, но была открыта, чтобы получить разнообразные взгляды на уязвимости.

Как это работает

Каждое испытание разворачивает живого ИИ-агента с:

Определённой персоной
Набором реальных инструментов (веб-поиск, браузинг и другие)
Чем-то, что ему поручено защищать
Полностью видимыми системными промптами

Цель — найти способы обойти защитные механизмы. Когда кому-то удаётся, выигрышная техника публикуется — включая подход, рассуждения и полные транскрипты диалогов.

Структура проекта

/src — React-фронтенд (TypeScript, Vite, Tailwind)
/challenges — конфигурация и системные промпты каждого испытания, версионированные и открытые
Оценка защитных механизмов выполняется на стороне сервера, чтобы предотвратить подделку на стороне клиента
Среда выполнения агента открывается отдельно

Локальная разработка

Для запуска локально:

npm install
npm run dev

По умолчанию это подключается к живому API. Для разработки с локальным бэкендом:

VITE_API_URL=http://localhost:8000/v1 npm run dev

Примеры испытаний

Первым испытанием было заставить агента вызвать инструмент, который ему запрещено вызывать. Кто-то преуспел примерно за 60 секунд, не запрашивая секрет напрямую. Следующее испытание фокусируется на эксфильтрации данных с более жёсткой защитой.

Сообщество определяет, что тестировать: любой может предложить испытание (сценарий, агент, цель), сообщество голосует, и испытание с наибольшим числом голосов запускается с тикающими часами. Самый быстрый успешный взлом побеждает.

Технические детали

Проект построен на TypeScript (76,5%), CSS (22,2%) и других языках (1,3%). Он использует лицензию MIT и имеет сообщество в Discord для обсуждения техник и обмена подходами.

📖 Read the full source: HN AI Agents

👀 Смотрите также

Безопасность

Мошеннический инструмент Roblox и ИИ вызвали сбой платформы Vercel.

Сообщается, что читерская программа для Roblox в сочетании с инструментом искусственного интеллекта вызвала полный сбой платформы Vercel, что привело к активному обсуждению на Hacker News с 66 баллами и 24 комментариями.

21 апр. 2026 г., 06:21 UTC

OpenClawRadar

Безопасность

Агент ИИ использует SQL-инъекцию для взлома чат-бота McKinsey Lilli

Исследователи безопасности из CodeWall использовали автономного ИИ-агента для взлома внутреннего чат-бота Lilli компании McKinsey, получив полный доступ на чтение и запись к его производственной базе данных за два часа через уязвимость SQL-инъекции в незащищённых API-эндпоинтах.

10 мар. 2026 г., 20:45 UTC

OpenClawRadar

Безопасность

Оценка AISI демонстрирует кибервозможности Claude Mythos Preview в CTF и многошаговых атаках.

Институт искусственного интеллекта и безопасности оценил предварительную версию Claude Mythos от Anthropic, обнаружив, что она успешно выполнила 73% экспертных заданий типа "захват флага" и решила симуляцию корпоративной сетевой атаки из 32 шагов в 3 из 10 попыток.

16 апр. 2026 г., 19:45 UTC

OpenClawRadar

Безопасность

Уязвимости функции «Разрешать всегда» в OpenClaw и более безопасные альтернативы

Функция 'разрешить всегда' в OpenClaw стала предметом двух уязвимостей (CVE) в этом месяце, позволяя выполнять несанкционированные команды через привязку команд-обёрток и обходы с помощью символов продолжения строки в оболочке. Более глубокая проблема заключается в том, как эта функция приучает пользователей переставать обращать внимание на запросы безопасности.

2 апр. 2026 г., 07:45 UTC

OpenClawRadar