Данные об угрозах из 91 тыс. взаимодействий с ИИ-агентами: злоупотребление инструментами выросло на 6,4%, появились новые мультимодальные атаки.

Ландшафт угроз на основе данных о производственных ИИ-агентах
Реальные данные об угрозах из 91 284 взаимодействий ИИ-агентов в 47 развёртываниях показывают 35 711 обнаруженных угроз в феврале 2026 года. Модель обнаружения использует 5-головой мультиметочный классификатор на основе Gemma.
Ключевые угрозы для локальных развёртываний
- Злоупотребление инструментами/командами: Увеличилось на 6,4% до 14,5% угроз. Доминирующий паттерн — эскалация цепочки инструментов, когда безобидный вызов чтения следует за записью или выполнением. Большинство локальных настроек предоставляют агентам доступ к инструментам без достаточных мер защиты.
- Перехват цели агента: Удвоился до 6,9% угроз. Нацелен на фазу планирования в циклах автономных агентов, что особенно актуально для локальных настроек с меньшим мониторингом состояния агента.
- Отравление RAG: Сместилось к атакам на метаданные на уровне 12,0% (с 10,0%). Новый паттерн нацелен на метаданные документов (названия, авторы, аннотации), а не на содержание. Большинство людей очищают содержимое, но пропускают метаданные как есть.
- Мультимодальная инъекция: Новая угроза на уровне 2,3%, когда инструкции скрыты в изображениях и PDF-файлах. Сканирование безопасности только текста пропускает эти атаки.
Процентное распределение угроз
- Экфильтрация данных: 18,0% (-1,2 изменение за месяц)
- Злоупотребление инструментами/командами: 14,5% (+6,4)
- Атака на RAG/контекст: 12,0% (+2,0)
- Взлом (jailbreak): 11,0% (-1,3)
- Инъекция промптов: 8,1% (-0,7)
- Перехват цели агента: 6,9% (+3,3)
- Атака между агентами: 5,0% (+1,6)
Подход к обнаружению
Конвейер обнаружения использует два уровня: L1 — сопоставление с образцами с 218 правилами (задержка менее миллисекунды, работает полностью локально), а L2 — на основе Gemma. Полная общедоступная версия с открытым исходным кодом находится на github.com/raxe-ai/raxe-ce.
📖 Read the full source: r/LocalLLaMA
👀 Смотрите также

Фейковый сайт Claude распространяет вредоносное ПО PlugX через атаку с использованием подмены библиотек (sideloading).
Поддельный сайт Claude распространяет троянизированный установщик, который развертывает вредоносное ПО PlugX через DLL sideloading, предоставляя злоумышленникам удаленный доступ к скомпрометированным системам. Атака использует легитимно подписанный обновляющий модуль антивируса G DATA для загрузки вредоносного кода.

Кейлгард: Открытый сканер безопасности для экземпляров OpenClaw
Caelguard — это сканер безопасности с открытым исходным кодом, созданный для OpenClaw, который выполняет 22 проверки вашего экземпляра, включая изоляцию Docker, ограничение разрешений инструментов и проверку цепочки поставок навыков. Он выставляет оценку из 140 баллов с буквенным обозначением и предоставляет конкретные шаги по устранению проблем.

Умный Bash-хук для контроля прав Claude Code предотвращает обход составных команд
Python-хук PreToolUse устраняет уязвимость в системе разрешений Claude Code, где составные bash-команды могли обходить шаблоны разрешения/запрета. Скрипт разбивает команды на подкоманды и проверяет каждую отдельно по существующим правилам разрешений.

Исходный код Cisco украден в результате атаки на цепочку поставок через Trivy
Внутренняя среда разработки Cisco была взломана с использованием украденных учетных данных из атаки на цепочку поставок Trivy, что привело к краже исходного кода из более чем 300 репозиториев GitHub, включая продукты на основе ИИ и код клиентов.