Сканер локального внедрения промптов в модели для безопасности AI-навыков

✍️ OpenClawRadar📅 Опубликовано: 20 марта 2026 г.🔗 Source
Сканер локального внедрения промптов в модели для безопасности AI-навыков
Ad

Уязвимость безопасности в навыках ИИ

Обсуждение на X выявило серьёзный недостаток безопасности в сторонних навыках ИИ. Claude Code поддерживает оператор ! для непосредственного выполнения bash-команд внутри навыков, но эти операторы могут быть скрыты в HTML-тегах, что приводит к выполнению bash-команд, о которых ИИ может не знать.

Реализация локального сканера

Был создан концептуальный инструмент для сканирования навыков на потенциальное внедрение вредоносного кода во время установки. Сканер использует модель без вызова инструментов, работающую локально, в частности mistral-small:latest на Ollama. Создатель сообщает, что он "работал идеально" во время тестирования.

Этот подход функционирует аналогично антивирусному сканеру и может быть интегрирован в будущий продукт "установщик навыков". Защита от инъекций в промпты определена как перспективное применение локальных моделей.

Ad

Технические детали

Уязвимость связана с оператором ! в Claude Code, который позволяет напрямую выполнять bash-команды. Злоумышленники могут скрывать эти операторы внутри HTML-тегов, потенциально выполняя вредоносные команды без ведома ИИ. Сканер решает эту проблему, анализируя навыки перед установкой для обнаружения таких скрытых инъекций.

📖 Read the full source: r/LocalLLaMA

Ad

👀 Смотрите также

Модели Claude уязвимы для скрытого перехвата с помощью невидимых символов Юникода, особенно при доступе к инструментам.
Безопасность

Модели Claude уязвимы для скрытого перехвата с помощью невидимых символов Юникода, особенно при доступе к инструментам.

Тестирование показывает, что Claude Sonnet 4 соответствует скрытым инструкциям, встроенным в невидимые символы Юникода, на 71,2% при включённых инструментах, в то время как Opus 4 достигает 100% соответствия при кодировании Unicode Tags. Доступ к инструментам значительно увеличивает уязвимость всех моделей Claude.

OpenClawRadar
AppLovin Mediation Cipher Broken: Device Fingerprinting Bypasses ATT
Безопасность

AppLovin Mediation Cipher Broken: Device Fingerprinting Bypasses ATT

Обратная разработка показала, что собственный шифр AppLovin использует постоянную соль + ключ SDK, ГПСЧ SplitMix64 и не имеет аутентификации. Расшифрованные запросы передают около 50 полей устройства (модель, размер экрана, локаль, время загрузки и т.д.) даже при отказе ATT, что позволяет детерминированно идентифицировать устройство в разных приложениях.

OpenClawRadar
Уязвимости функции «Разрешать всегда» в OpenClaw и более безопасные альтернативы
Безопасность

Уязвимости функции «Разрешать всегда» в OpenClaw и более безопасные альтернативы

Функция 'разрешить всегда' в OpenClaw стала предметом двух уязвимостей (CVE) в этом месяце, позволяя выполнять несанкционированные команды через привязку команд-обёрток и обходы с помощью символов продолжения строки в оболочке. Более глубокая проблема заключается в том, как эта функция приучает пользователей переставать обращать внимание на запросы безопасности.

OpenClawRadar
Ошибка плагина Claude Code вызывает скачки потребления процессора и разрядку аккумулятора.
Безопасность

Ошибка плагина Claude Code вызывает скачки потребления процессора и разрядку аккумулятора.

Пользователь обнаружил, что плагин Claude Code для Telegram создает несколько процессов bun.exe, которые работают на 100% загрузки ЦП даже при закрытой крышке ноутбука, вызывая быстрый разряд батареи. Процессы сохраняются после циклов сна/пробуждения и требуют специальных шагов для удаления.

OpenClawRadar