Анализ безопасности ИИ-агентов выявляет нарушенную модель доверия и высокий уровень уязвимостей.

Разбор архитектуры безопасности
Анализ показывает, что фундаментальная модель доверительных отношений для ИИ-агентов нарушена. В отличие от традиционных архитектур безопасности, ИИ-агенты обрабатывают атаки и легитимные инструкции через одно и то же контекстное окно без структурного разделения. Разделение плоскостей управления и данных, лежащее в основе традиционной безопасности, отсутствует в текущих реализациях ИИ-агентов.
Ключевые эмпирические выводы
- Косвенное внедрение достигает 36-98% успешности атак (ASR) на передовые модели в бенчмарках MCPTox, ASB и PINT
- Более мощные модели БОЛЕЕ уязвимы к атакам на инструментальном уровне
- Сканирование экосистемы npm MCP: изучено 2 386 пакетов, 49% содержат проблемы безопасности
- Поверхности атак растут сверхлинейно с ростом возможностей агента
Предлагаемое решение: Правила угроз агентов (ATR)
Исследование представляет Правила угроз агентов (ATR) — первый открытый стандарт обнаружения угроз для ИИ-агентов. Реализация включает:
- 61 правило обнаружения
- 99,4% точности на бенчмарке PINT
- Открытый исходный код с лицензией MIT
- Доступно на GitHub: https://github.com/Agent-Threat-Rule/agent-threat-rules
Полная статья охватывает 30+ CVE, 7 бенчмарков и предлагает архитектурные требования для защитных механизмов, способных идти в ногу с масштабированием ИИ.
📖 Read the full source: r/ClaudeAI
👀 Смотрите также

Атака на цепочку поставок использует невидимые символы Юникода для обхода обнаружения.
Исследователи обнаружили 151 вредоносный пакет, загруженный на GitHub с 3 по 9 марта, в которых использовались невидимые символы Юникода для скрытия вредоносного кода. Атака нацелена на репозитории GitHub, NPM и Open VSX с пакетами, которые выглядят легитимными, но содержат скрытые полезные нагрузки.

Google сообщает, что хакерские атаки с использованием ИИ достигли промышленных масштабов за 3 месяца
Группа разведки угроз Google обнаружила, что преступные и государственные группы используют коммерческие модели ИИ (Gemini, Claude, OpenAI) для доработки и масштабирования атак. Одна группа едва не использовала уязвимость нулевого дня для массовой эксплуатации, а другие экспериментируют с незащищенным агентом OpenClaw.

Когтетверждение: Защитный механизм для кода Claude, блокирующий уязвимые npm-пакеты
Разработчик создал Clawndom — открытый хук для Claude Code, который проверяет npm-пакеты на наличие уязвимостей в базе данных OSV.dev перед установкой, блокируя известные уязвимые пакеты, сохраняя при этом автономность агента.

Результаты проверки безопасности для ИИ-агентов OpenClaw, PicoClaw, ZeroClaw, IronClaw и Minion.
В ходе оценки безопасности пяти ИИ-агентов для написания кода было протестировано 145 атакующих векторов в 12 категориях, включая инъекцию промптов, джейлбрейкинг и эксфильтрацию данных. OpenClaw набрал 77,8/100 с критическими уязвимостями SQL-инъекций, в то время как Minion улучшил результат с 81,2 до 94,4/100 после исправлений.