Открытая площадка для тестирования на проникновение ИИ-агентов с опубликованными уязвимостями.

Что это такое
Fabraix Playground — это среда с открытым исходным кодом для «красного командирования» ИИ-агентов через состязательные испытания. Она начиналась как внутренний инструмент для тестирования защитных механизмов, но была открыта, чтобы получить разнообразные взгляды на уязвимости.
Как это работает
Каждое испытание разворачивает живого ИИ-агента с:
- Определённой персоной
- Набором реальных инструментов (веб-поиск, браузинг и другие)
- Чем-то, что ему поручено защищать
- Полностью видимыми системными промптами
Цель — найти способы обойти защитные механизмы. Когда кому-то удаётся, выигрышная техника публикуется — включая подход, рассуждения и полные транскрипты диалогов.
Структура проекта
/src— React-фронтенд (TypeScript, Vite, Tailwind)/challenges— конфигурация и системные промпты каждого испытания, версионированные и открытые- Оценка защитных механизмов выполняется на стороне сервера, чтобы предотвратить подделку на стороне клиента
- Среда выполнения агента открывается отдельно
Локальная разработка
Для запуска локально:
npm install
npm run devПо умолчанию это подключается к живому API. Для разработки с локальным бэкендом:
VITE_API_URL=http://localhost:8000/v1 npm run devПримеры испытаний
Первым испытанием было заставить агента вызвать инструмент, который ему запрещено вызывать. Кто-то преуспел примерно за 60 секунд, не запрашивая секрет напрямую. Следующее испытание фокусируется на эксфильтрации данных с более жёсткой защитой.
Сообщество определяет, что тестировать: любой может предложить испытание (сценарий, агент, цель), сообщество голосует, и испытание с наибольшим числом голосов запускается с тикающими часами. Самый быстрый успешный взлом побеждает.
Технические детали
Проект построен на TypeScript (76,5%), CSS (22,2%) и других языках (1,3%). Он использует лицензию MIT и имеет сообщество в Discord для обсуждения техник и обмена подходами.
📖 Read the full source: HN AI Agents
👀 Смотрите также

ThornGuard: Прокси-шлюз для защиты подключений к серверам MCP от инъекций в промпты
ThornGuard — это прокси, который располагается между клиентами MCP и вышестоящими серверами, сканирует трафик на наличие шаблонов внедрения, удаляет персональные данные и ведёт логирование в панели управления. Он был создан после того, как тестирование выявило уязвимости, позволяющие серверам встраивать скрытые инструкции в ответы инструментов.

Уязвимости безопасности обнаружены в образовательном приложении, представленном на Lovable.
Исследователь безопасности обнаружил 16 уязвимостей в образовательном приложении, представленном на платформе Lovable, включая критические ошибки в логике аутентификации, которые позволили получить доступ к 18 697 пользовательским записям без авторизации. Приложение набрало более 100 000 просмотров в шоукейсе Lovable и имело реальных пользователей из UC Berkeley, UC Davis и школ по всему миру.

Пользователь OpenClaw добавляет TOTP 2FA после того, как агент оставил API-ключи в открытом тексте.
Пользователь OpenClaw создал навык безопасности под названием 'Secure Reveal', который требует аутентификации по TOTP через Telegram перед отображением сохранённых учётных данных, после того как их ИИ-агент случайно раскрыл API-ключи и пароли в открытом тексте во время демонстрации.

Сканер локального внедрения промптов в модели для безопасности AI-навыков
Концептуальный инструмент сканирует сторонние навыки ИИ на наличие скрытых инъекций bash-команд с использованием локальной модели без вызова инструментов, такой как mistral-small:latest на Ollama, решая проблемы безопасности в функции оператора ! в Claude Code.