KnightClaw: Локальное расширение безопасности для агентов OpenClaw

KnightClaw — это расширение безопасности, предназначенное для защиты агентов искусственного интеллекта OpenClaw от вредоносных запросов. Инструмент решает конкретную модель угроз, когда одно злонамеренное сообщение в контекстном окне может заставить агента следовать инструкциям злоумышленника вместо команд пользователя.
Основные возможности
KnightClaw работает как расширение, не требующее настройки, API-ключей или облачных зависимостей. Оно перехватывает каждое сообщение до того, как оно достигнет агента.
Система обнаружения
Защита использует 8-уровневый гибридный подход обнаружения:
- Регулярные выражения
- Обнаружение гомоглифов
- Анализ граничных токенов
- Оценка перплексии
- Анализ энтропии
- Эвристические методы
- Семантические эмбеддинги (с использованием локальной квантованной модели BGE)
Блокировка происходит за микросекунды.
Дополнительные меры безопасности
- Редактирование исходящих данных: Удаляет секреты из исходящих ответов до их отправки агентом
- Аудиторские журналы с хеш-цепочкой: Защищённые от изменений журналы только для добавления с полной хронологией каждой блокировки, разрешения и изменения конфигурации
- Автоматический выключатель скорости: 10 блокировок за 60 секунд активируют автоматическую блокировку без ручного вмешательства
- Аварийный выключатель: Одна команда останавливает всё:
openclaw knight lockdown on
Технические детали
Расширение работает полностью локально, без телеметрии, и имеет лицензию MIT. Исходный код доступен для тестирования и внесения вклада.
📖 Read the full source: r/openclaw
👀 Смотрите также

Система ИИ обнаружила 12 уязвимостей нулевого дня в OpenSSL, а Curl отменил программу вознаграждений за баги из-за спама от ИИ.
ИИ-система AISLE обнаружила все 12 уязвимостей нулевого дня в последнем релизе безопасности OpenSSL, что стало первой крупномасштабной демонстрацией ИИ-кибербезопасности. В то же время curl отменил свою программу вознаграждений за обнаружение уязвимостей из-за спам-отчетов, сгенерированных ИИ.

Пользователь OpenClaw добавляет TOTP 2FA после того, как агент оставил API-ключи в открытом тексте.
Пользователь OpenClaw создал навык безопасности под названием 'Secure Reveal', который требует аутентификации по TOTP через Telegram перед отображением сохранённых учётных данных, после того как их ИИ-агент случайно раскрыл API-ключи и пароли в открытом тексте во время демонстрации.

Пользователь OpenClaw делится стратегией балансировки автономии агентов и веб-безопасности.
Пользователь OpenClaw описывает свою текущую задачу: балансирование автономности агентов с безопасностью, особенно в отношении доступа в интернет и рисков инъекции промптов. Они предлагают решение с использованием сегментов агентов с 'низким доверием' и 'высоким доверием' с этапом одобрения человеком.

Уязвимость OpenClaw: 42,000 случаев раскрытия данных
OpenClaw столкнулся с серьезной проблемой безопасности, которая привела к раскрытию 42,000 экземпляров с 341 вредоносными навыками. Быстрый ответ включал создание AgentVault, прокси-сервера безопасности.