Agent-Drift: инструмент мониторинга безопасности для AI-агентов

Специалист по кибербезопасности sysinternalssuite создал Agent-Drift — open source инструмент для защиты AI-агентов от prompt injection, поведенческого дрифта и других атак. По сути SIEM + IDS специально для OpenClaw.

Зачем это нужно

"Я работаю в кибербезопасности и заметил рост prompt injection, поведенческого дрифта, отравления памяти и другого в AI-агентах в продакшене"

Что делает Agent-Drift

GitHub: https://github.com/lukehebe/Agent-Drift

Инструмент работает как wrapper для OpenClaw:

Собирает поведенческий baseline
Обнаруживает поведенческий дрифт
Оповещает через dashboard

Мониторинг поведения

Отслеживаемые паттерны:

Последовательности и частоты использования инструментов
Временные аномалии
Паттерны принятия решений
Характеристики вывода

Обнаружение атак

Атака	Описание
Override инструкций	Перехват команд
Hijacking роли	Захват роли
Попытки jailbreak	Обход ограничений
Эксфильтрация данных	Утечка данных
Закодированные payload	Обфусцированные payload
Отравление памяти	Повреждение памяти
Эскалация привилегий	Повышение прав
Непрямая prompt injection	Непрямые атаки

Как это работает

Обучение baseline — первые запуски устанавливают нормальное поведение
Поведенческие векторы — каждый запуск становится многомерным вектором
Обнаружение дрифта — новые запуски сравниваются с baseline
Оповещения об аномалиях — значительные отклонения вызывают предупреждения

TL;DR

"По сути all-in-one SIEM для твоего AI-агента, который работает как IDS и также предупреждает, если твой AI начинает сходить с ума."

Источник: u/sysinternalssuite на r/moltbot

📖 Читать полный источник: Reddit

Agent-Drift: инструмент мониторинга безопасности для AI-агентов

Agent-Drift: инструмент мониторинга безопасности для AI-агентов

Зачем это нужно

Что делает Agent-Drift

Мониторинг поведения

Обнаружение атак

Как это работает

TL;DR

👀 Смотрите также

Защитные механизмы ИИ-агентов со временем ослабляются без активного обслуживания.

Сканер безопасности навыков OpenClaw: 7,6% из 31 371 навыка помечены как опасные

Настройка OpenClaw для зашифрованного вывода LLM с использованием TEE анклавов

Ежедневный автоматизированный аудит безопасности для магазина, управляемого искусственным интеллектом