Бенчмарк безопасности: 10 крупных языковых моделей протестированы с помощью 211 вредоносных запросов.

✍️ OpenClawRadar📅 Опубликовано: 8 марта 2026 г.🔗 Source
Бенчмарк безопасности: 10 крупных языковых моделей протестированы с помощью 211 вредоносных запросов.
Ad

Исследователь безопасности провёл систематическое тестирование 10 различных больших языковых моделей (LLM) с использованием 211 атакующих зондов для оценки их поведения в реальных сценариях.

Методология тестирования

Исследователь использовал стандартизированную настройку с температурой 0 и идентичными API-вызовами для каждой модели. Тест включал 82 зонда на извлечение данных (попытки украсть системные промпты) и 109 зондов на внедрение (попытки захватить управление поведением модели). В качестве приманки использовался системный промпт-«медовая ловушка», содержащий фиктивные PII-данные, SSH-ключи и API-учётные данные.

Ключевые выводы

  • Устойчивость к извлечению данных в основном решена: Большинство моделей достаточно хорошо блокируют атаки типа «повтори свой системный промпт». Средний показатель по всем моделям составляет около 85%.
  • Устойчивость к внедрению не решена: Средний показатель — 46,2%, что означает, что более половины атак на внедрение успешны для всех моделей.
  • Универсальные провалы: Каждая модель провалила тесты на атаки с использованием разделителей, отвлекающих элементов и стилевого внедрения. Устойчивость 0% по этим категориям для всех 10 моделей.
  • Неэффективные методы атак: Все модели показали 100% устойчивость к разделению полезной нагрузки и уклонению с помощью опечаток.
Ad

Результаты по конкретным моделям

  • Claude Opus: Показал 72,7% устойчивости к внедрению — лучший результат среди протестированных моделей. Это всё равно означает, что более чем каждая четвёртая атака на внедрение успешна.
  • GPT-5.4: Имеет идеальные показатели по извлечению данных и целостности границ, но только 50% устойчивости к внедрению.
  • GPT-5.3 Codex: Модель, лежащая в основе Codex CLI, которая выполняет код на вашем компьютере, показала 34,5% устойчивости к внедрению. 2 из 3 попыток внедрения успешны.
  • DeepSeek V3.2: Показал 17,4% устойчивости к внедрению, что практически означает отсутствие защиты.
  • Qwen 3.5 API vs локальная версия: Почти идентичные показатели по извлечению данных (81,6% vs 81,7%), но локальная версия хуже справляется с внедрением (46,9% vs 29,8%) и значительно хуже по целостности границ (59,8% vs 44,6%). Локальный запуск не снижает способности блокировать извлечение данных, но делает модель более уязвимой к внедрению.

Почему внедрение важно

Извлечение данных означает, что кто-то крадёт ваш системный промпт — это плохо, но поправимо. Внедрение означает, что кто-то захватывает управление действиями вашего агента. Если ваш агент имеет доступ к инструментам, файловой системе или может выполнять API-вызовы, успешное внедрение может привести к утечке данных, удалению файлов или худшим последствиям. На данный момент лучшая модель в мире блокирует только 73% попыток внедрения.

Полная методология и результаты опубликованы на agentseal.org/benchmark. Тестовый промпт также опубликован, чтобы любой мог воспроизвести результаты.

📖 Read the full source: r/LocalLLaMA

Ad

👀 Смотрите также

Лаборатория для атаки и защиты RAG с открытым исходным кодом для локальных стеков ChromaDB + LM Studio
Безопасность

Лаборатория для атаки и защиты RAG с открытым исходным кодом для локальных стеков ChromaDB + LM Studio

Лаборатория с открытым исходным кодом измеряет эффективность отравления базы знаний RAG в стандартных локальных настройках с ChromaDB и LM Studio, показывая 95% успеха на незащищённых системах и оценивая практические методы защиты.

OpenClawRadar
OpenClaw устраняет критическую уязвимость повышения привилегий в пути /pair Approve
Безопасность

OpenClaw устраняет критическую уязвимость повышения привилегий в пути /pair Approve

OpenClaw 2026.3.28 исправляет критическую уязвимость безопасности (GHSA-hc5h-pmr3-3497), когда команда /pair approve позволяла пользователям с правами сопряжения утверждать запросы устройств на расширенные права, включая административный доступ. Затронуты версии <= 2026.3.24.

OpenClawRadar
Проблемы конфиденциальности в OpenClaw: Навыки, SOUL MD и взаимодействие агентов
Безопасность

Проблемы конфиденциальности в OpenClaw: Навыки, SOUL MD и взаимодействие агентов

Разработчик поднимает вопросы конфиденциальности в архитектуре OpenClaw, в частности, касательно неограниченного доступа навыков к конфиденциальным данным, возможности записи в SOUL MD и обмена информацией между агентами без фильтров.

OpenClawRadar
Google TIG сообщает о первом в реальных условиях эксплойте для нулевого дня, созданном ИИ
Безопасность

Google TIG сообщает о первом в реальных условиях эксплойте для нулевого дня, созданном ИИ

Группа угроз Google выявила субъект угрозы, использующий эксплойт zero-day, разработанный, как считается, с помощью ИИ, что стало первым наблюдением использования ИИ в наступательных целях для эксплуатации уязвимостей zero-day.

OpenClawRadar