Бенчмарк безопасности: 10 крупных языковых моделей протестированы с помощью 211 вредоносных запросов.

✍️ OpenClawRadar📅 Опубликовано: 8 марта 2026 г.🔗 Source

Исследователь безопасности провёл систематическое тестирование 10 различных больших языковых моделей (LLM) с использованием 211 атакующих зондов для оценки их поведения в реальных сценариях.

Методология тестирования

Исследователь использовал стандартизированную настройку с температурой 0 и идентичными API-вызовами для каждой модели. Тест включал 82 зонда на извлечение данных (попытки украсть системные промпты) и 109 зондов на внедрение (попытки захватить управление поведением модели). В качестве приманки использовался системный промпт-«медовая ловушка», содержащий фиктивные PII-данные, SSH-ключи и API-учётные данные.

Ключевые выводы

Устойчивость к извлечению данных в основном решена: Большинство моделей достаточно хорошо блокируют атаки типа «повтори свой системный промпт». Средний показатель по всем моделям составляет около 85%.
Устойчивость к внедрению не решена: Средний показатель — 46,2%, что означает, что более половины атак на внедрение успешны для всех моделей.
Универсальные провалы: Каждая модель провалила тесты на атаки с использованием разделителей, отвлекающих элементов и стилевого внедрения. Устойчивость 0% по этим категориям для всех 10 моделей.
Неэффективные методы атак: Все модели показали 100% устойчивость к разделению полезной нагрузки и уклонению с помощью опечаток.

Результаты по конкретным моделям

Claude Opus: Показал 72,7% устойчивости к внедрению — лучший результат среди протестированных моделей. Это всё равно означает, что более чем каждая четвёртая атака на внедрение успешна.
GPT-5.4: Имеет идеальные показатели по извлечению данных и целостности границ, но только 50% устойчивости к внедрению.
GPT-5.3 Codex: Модель, лежащая в основе Codex CLI, которая выполняет код на вашем компьютере, показала 34,5% устойчивости к внедрению. 2 из 3 попыток внедрения успешны.
DeepSeek V3.2: Показал 17,4% устойчивости к внедрению, что практически означает отсутствие защиты.
Qwen 3.5 API vs локальная версия: Почти идентичные показатели по извлечению данных (81,6% vs 81,7%), но локальная версия хуже справляется с внедрением (46,9% vs 29,8%) и значительно хуже по целостности границ (59,8% vs 44,6%). Локальный запуск не снижает способности блокировать извлечение данных, но делает модель более уязвимой к внедрению.

Почему внедрение важно

Извлечение данных означает, что кто-то крадёт ваш системный промпт — это плохо, но поправимо. Внедрение означает, что кто-то захватывает управление действиями вашего агента. Если ваш агент имеет доступ к инструментам, файловой системе или может выполнять API-вызовы, успешное внедрение может привести к утечке данных, удалению файлов или худшим последствиям. На данный момент лучшая модель в мире блокирует только 73% попыток внедрения.

Полная методология и результаты опубликованы на agentseal.org/benchmark. Тестовый промпт также опубликован, чтобы любой мог воспроизвести результаты.

📖 Read the full source: r/LocalLLaMA

👀 Смотрите также

Безопасность

Anthropic сообщает о промышленном масштабе извлечения данных ИИ Claude китайскими лабораториями.

Anthropic подтвердила, что китайские лаборатории ИИ использовали более 24 000 поддельных аккаунтов для сбора 16 миллионов диалогов из Claude, извлекая защитные механизмы и логические структуры для военных и систем наблюдения.

23 февр. 2026 г., 21:45 UTC

OpenClawRadar

Безопасность

Не доверяйте ИИ больше, чем человеку — применяйте те же средства контроля доступа

В обсуждении на Reddit утверждается, что ИИ-агентов для программирования следует рассматривать как младших разработчиков — без доступа к продакшену, без прямых прав на запись, с обязательными CI/CD пайплайнами и разграничением ролей.

30 апр. 2026 г., 02:15 UTC

OpenClawRadar

Безопасность

pi-governance: управление доступом на основе ролей (RBAC), защита от утечек данных (DLP) и аудит журналов для кодирующих агентов OpenClaw

pi-governance — это плагин, который располагается между ИИ-агентами для программирования и вашей системой, классифицируя вызовы инструментов и блокируя рискованные операции. Он обеспечивает блокировку bash-команд, сканирование DLP на наличие секретов и PII, управление доступом на основе ролей и структурированное аудит-логирование без необходимости настройки.

17 апр. 2026 г., 06:45 UTC

OpenClawRadar

Безопасность

Уязвимость в Snowflake Cortex Code CLI позволяла обходить песочницу и выполнять вредоносный код

Уязвимость в Snowflake Cortex Code CLI версии 1.0.25 и более ранних позволяла выполнять произвольные команды без одобрения человека через обход подстановки процессов, что позволяло устанавливать вредоносное ПО и выходить из песочницы с помощью косвенной инъекции промптов.

19 мар. 2026 г., 01:45 UTC

OpenClawRadar