Открытая площадка для тестирования на проникновение ИИ-агентов с опубликованными уязвимостями.

Что это такое
Fabraix Playground — это среда с открытым исходным кодом для «красного командирования» ИИ-агентов через состязательные испытания. Она начиналась как внутренний инструмент для тестирования защитных механизмов, но была открыта, чтобы получить разнообразные взгляды на уязвимости.
Как это работает
Каждое испытание разворачивает живого ИИ-агента с:
- Определённой персоной
- Набором реальных инструментов (веб-поиск, браузинг и другие)
- Чем-то, что ему поручено защищать
- Полностью видимыми системными промптами
Цель — найти способы обойти защитные механизмы. Когда кому-то удаётся, выигрышная техника публикуется — включая подход, рассуждения и полные транскрипты диалогов.
Структура проекта
/src— React-фронтенд (TypeScript, Vite, Tailwind)/challenges— конфигурация и системные промпты каждого испытания, версионированные и открытые- Оценка защитных механизмов выполняется на стороне сервера, чтобы предотвратить подделку на стороне клиента
- Среда выполнения агента открывается отдельно
Локальная разработка
Для запуска локально:
npm install
npm run devПо умолчанию это подключается к живому API. Для разработки с локальным бэкендом:
VITE_API_URL=http://localhost:8000/v1 npm run devПримеры испытаний
Первым испытанием было заставить агента вызвать инструмент, который ему запрещено вызывать. Кто-то преуспел примерно за 60 секунд, не запрашивая секрет напрямую. Следующее испытание фокусируется на эксфильтрации данных с более жёсткой защитой.
Сообщество определяет, что тестировать: любой может предложить испытание (сценарий, агент, цель), сообщество голосует, и испытание с наибольшим числом голосов запускается с тикающими часами. Самый быстрый успешный взлом побеждает.
Технические детали
Проект построен на TypeScript (76,5%), CSS (22,2%) и других языках (1,3%). Он использует лицензию MIT и имеет сообщество в Discord для обсуждения техник и обмена подходами.
📖 Read the full source: HN AI Agents
👀 Смотрите также

Исходный код Cisco украден в результате атаки на цепочку поставок через Trivy
Внутренняя среда разработки Cisco была взломана с использованием украденных учетных данных из атаки на цепочку поставок Trivy, что привело к краже исходного кода из более чем 300 репозиториев GitHub, включая продукты на основе ИИ и код клиентов.

Надежно установите OpenClaw на VPS с помощью Tailscale и других инструментов.
Пользователи OpenClaw, ищущие безопасную настройку для самостоятельного размещения, должны рассмотреть эти меры для повышения безопасности и минимизации рисков. Настройка придает первостепенное значение безопасности, используя Tailscale для устранения прямого публичного доступа и внедрения стратегий многослойной защиты, таких как усиление SSH, <code>fail2ban</code> для защиты от атак методом подбора пароля, <code>UFW</code> для управления файрволом и обеспечение автоматических обновлений для вашей системы.

Анализ безопасности извлечения компонентов OpenClaw для создания пользовательских ИИ-агентов
Разработчик проанализировал исходный код OpenClaw, чтобы определить, какие компоненты можно безопасно извлечь для использования в пользовательских ИИ-агентах, оценив каждый по методологии Lethal Quartet. Анализ выявил значительные риски безопасности в таких компонентах, как Semantic Snapshots и BrowserClaw.

От фермы до кода: Как фермер создал защиту в реальном времени с открытым исходным кодом для OpenClaw
Узнайте, как фермер, не имея опыта в разработке, создал систему защиты с открытым исходным кодом для OpenClaw, используя несколько AI-кодовагентов всего за 12 часов.