KnightClaw: 8-уровневая защита агентов OpenClaw

KnightClaw — это расширение безопасности, предназначенное для защиты агентов искусственного интеллекта OpenClaw от вредоносных запросов. Инструмент решает конкретную модель угроз, когда одно злонамеренное сообщение в контекстном окне может заставить агента следовать инструкциям злоумышленника вместо команд пользователя.

Основные возможности

KnightClaw работает как расширение, не требующее настройки, API-ключей или облачных зависимостей. Оно перехватывает каждое сообщение до того, как оно достигнет агента.

Система обнаружения

Защита использует 8-уровневый гибридный подход обнаружения:

Регулярные выражения
Обнаружение гомоглифов
Анализ граничных токенов
Оценка перплексии
Анализ энтропии
Эвристические методы
Семантические эмбеддинги (с использованием локальной квантованной модели BGE)

Блокировка происходит за микросекунды.

Дополнительные меры безопасности

Редактирование исходящих данных: Удаляет секреты из исходящих ответов до их отправки агентом
Аудиторские журналы с хеш-цепочкой: Защищённые от изменений журналы только для добавления с полной хронологией каждой блокировки, разрешения и изменения конфигурации
Автоматический выключатель скорости: 10 блокировок за 60 секунд активируют автоматическую блокировку без ручного вмешательства
Аварийный выключатель: Одна команда останавливает всё: openclaw knight lockdown on