Атаки на ИИ-агенты: рост злоупотреблений на 6,4% и новые угрозы

Ландшафт угроз на основе данных о производственных ИИ-агентах

Реальные данные об угрозах из 91 284 взаимодействий ИИ-агентов в 47 развёртываниях показывают 35 711 обнаруженных угроз в феврале 2026 года. Модель обнаружения использует 5-головой мультиметочный классификатор на основе Gemma.

Ключевые угрозы для локальных развёртываний

Злоупотребление инструментами/командами: Увеличилось на 6,4% до 14,5% угроз. Доминирующий паттерн — эскалация цепочки инструментов, когда безобидный вызов чтения следует за записью или выполнением. Большинство локальных настроек предоставляют агентам доступ к инструментам без достаточных мер защиты.
Перехват цели агента: Удвоился до 6,9% угроз. Нацелен на фазу планирования в циклах автономных агентов, что особенно актуально для локальных настроек с меньшим мониторингом состояния агента.
Отравление RAG: Сместилось к атакам на метаданные на уровне 12,0% (с 10,0%). Новый паттерн нацелен на метаданные документов (названия, авторы, аннотации), а не на содержание. Большинство людей очищают содержимое, но пропускают метаданные как есть.
Мультимодальная инъекция: Новая угроза на уровне 2,3%, когда инструкции скрыты в изображениях и PDF-файлах. Сканирование безопасности только текста пропускает эти атаки.

Процентное распределение угроз

Экфильтрация данных: 18,0% (-1,2 изменение за месяц)
Злоупотребление инструментами/командами: 14,5% (+6,4)
Атака на RAG/контекст: 12,0% (+2,0)
Взлом (jailbreak): 11,0% (-1,3)
Инъекция промптов: 8,1% (-0,7)
Перехват цели агента: 6,9% (+3,3)
Атака между агентами: 5,0% (+1,6)

Подход к обнаружению

Конвейер обнаружения использует два уровня: L1 — сопоставление с образцами с 218 правилами (задержка менее миллисекунды, работает полностью локально), а L2 — на основе Gemma. Полная общедоступная версия с открытым исходным кодом находится на github.com/raxe-ai/raxe-ce.

📖 Read the full source: r/LocalLLaMA

Данные об угрозах из 91 тыс. взаимодействий с ИИ-агентами: злоупотребление инструментами выросло на 6,4%, появились новые мультимодальные атаки.

Ландшафт угроз на основе данных о производственных ИИ-агентах

Ключевые угрозы для локальных развёртываний

Процентное распределение угроз

Подход к обнаружению

👀 Смотрите также

OneCLI: Открытое Хранилище Учетных Данных для ИИ-Агентов

Расширение Claude Code для VS Code раскрывает состояние выделения в закрытых файлах и новых сессиях

LLM-ассистированный эксплойт: Предварительная версия Mythos от Anthropic помогла создать первый публичный эксплойт ядра macOS на Apple M5 за пять дней

Клод Коворк: Проблемы безопасности разрешения «Разрешить все действия в браузере» и предлагаемые решения