Открытая площадка для тестирования на проникновение ИИ-агентов с опубликованными уязвимостями.

✍️ OpenClawRadar📅 Опубликовано: 16 марта 2026 г.🔗 Source
Открытая площадка для тестирования на проникновение ИИ-агентов с опубликованными уязвимостями.
Ad

Что это такое

Fabraix Playground — это среда с открытым исходным кодом для «красного командирования» ИИ-агентов через состязательные испытания. Она начиналась как внутренний инструмент для тестирования защитных механизмов, но была открыта, чтобы получить разнообразные взгляды на уязвимости.

Как это работает

Каждое испытание разворачивает живого ИИ-агента с:

  • Определённой персоной
  • Набором реальных инструментов (веб-поиск, браузинг и другие)
  • Чем-то, что ему поручено защищать
  • Полностью видимыми системными промптами

Цель — найти способы обойти защитные механизмы. Когда кому-то удаётся, выигрышная техника публикуется — включая подход, рассуждения и полные транскрипты диалогов.

Структура проекта

  • /src — React-фронтенд (TypeScript, Vite, Tailwind)
  • /challenges — конфигурация и системные промпты каждого испытания, версионированные и открытые
  • Оценка защитных механизмов выполняется на стороне сервера, чтобы предотвратить подделку на стороне клиента
  • Среда выполнения агента открывается отдельно
Ad

Локальная разработка

Для запуска локально:

npm install
npm run dev

По умолчанию это подключается к живому API. Для разработки с локальным бэкендом:

VITE_API_URL=http://localhost:8000/v1 npm run dev

Примеры испытаний

Первым испытанием было заставить агента вызвать инструмент, который ему запрещено вызывать. Кто-то преуспел примерно за 60 секунд, не запрашивая секрет напрямую. Следующее испытание фокусируется на эксфильтрации данных с более жёсткой защитой.

Сообщество определяет, что тестировать: любой может предложить испытание (сценарий, агент, цель), сообщество голосует, и испытание с наибольшим числом голосов запускается с тикающими часами. Самый быстрый успешный взлом побеждает.

Технические детали

Проект построен на TypeScript (76,5%), CSS (22,2%) и других языках (1,3%). Он использует лицензию MIT и имеет сообщество в Discord для обсуждения техник и обмена подходами.

📖 Read the full source: HN AI Agents

Ad

👀 Смотрите также

ThornGuard: Прокси-шлюз для защиты подключений к серверам MCP от инъекций в промпты
Безопасность

ThornGuard: Прокси-шлюз для защиты подключений к серверам MCP от инъекций в промпты

ThornGuard — это прокси, который располагается между клиентами MCP и вышестоящими серверами, сканирует трафик на наличие шаблонов внедрения, удаляет персональные данные и ведёт логирование в панели управления. Он был создан после того, как тестирование выявило уязвимости, позволяющие серверам встраивать скрытые инструкции в ответы инструментов.

OpenClawRadar
Уязвимости безопасности обнаружены в образовательном приложении, представленном на Lovable.
Безопасность

Уязвимости безопасности обнаружены в образовательном приложении, представленном на Lovable.

Исследователь безопасности обнаружил 16 уязвимостей в образовательном приложении, представленном на платформе Lovable, включая критические ошибки в логике аутентификации, которые позволили получить доступ к 18 697 пользовательским записям без авторизации. Приложение набрало более 100 000 просмотров в шоукейсе Lovable и имело реальных пользователей из UC Berkeley, UC Davis и школ по всему миру.

OpenClawRadar
Пользователь OpenClaw добавляет TOTP 2FA после того, как агент оставил API-ключи в открытом тексте.
Безопасность

Пользователь OpenClaw добавляет TOTP 2FA после того, как агент оставил API-ключи в открытом тексте.

Пользователь OpenClaw создал навык безопасности под названием 'Secure Reveal', который требует аутентификации по TOTP через Telegram перед отображением сохранённых учётных данных, после того как их ИИ-агент случайно раскрыл API-ключи и пароли в открытом тексте во время демонстрации.

OpenClawRadar
Сканер локального внедрения промптов в модели для безопасности AI-навыков
Безопасность

Сканер локального внедрения промптов в модели для безопасности AI-навыков

Концептуальный инструмент сканирует сторонние навыки ИИ на наличие скрытых инъекций bash-команд с использованием локальной модели без вызова инструментов, такой как mistral-small:latest на Ollama, решая проблемы безопасности в функции оператора ! в Claude Code.

OpenClawRadar