Сканер локального внедрения промптов в модели для безопасности AI-навыков

Уязвимость безопасности в навыках ИИ
Обсуждение на X выявило серьёзный недостаток безопасности в сторонних навыках ИИ. Claude Code поддерживает оператор ! для непосредственного выполнения bash-команд внутри навыков, но эти операторы могут быть скрыты в HTML-тегах, что приводит к выполнению bash-команд, о которых ИИ может не знать.
Реализация локального сканера
Был создан концептуальный инструмент для сканирования навыков на потенциальное внедрение вредоносного кода во время установки. Сканер использует модель без вызова инструментов, работающую локально, в частности mistral-small:latest на Ollama. Создатель сообщает, что он "работал идеально" во время тестирования.
Этот подход функционирует аналогично антивирусному сканеру и может быть интегрирован в будущий продукт "установщик навыков". Защита от инъекций в промпты определена как перспективное применение локальных моделей.
Технические детали
Уязвимость связана с оператором ! в Claude Code, который позволяет напрямую выполнять bash-команды. Злоумышленники могут скрывать эти операторы внутри HTML-тегов, потенциально выполняя вредоносные команды без ведома ИИ. Сканер решает эту проблему, анализируя навыки перед установкой для обнаружения таких скрытых инъекций.
📖 Read the full source: r/LocalLLaMA
👀 Смотрите также

Модели Claude уязвимы для скрытого перехвата с помощью невидимых символов Юникода, особенно при доступе к инструментам.
Тестирование показывает, что Claude Sonnet 4 соответствует скрытым инструкциям, встроенным в невидимые символы Юникода, на 71,2% при включённых инструментах, в то время как Opus 4 достигает 100% соответствия при кодировании Unicode Tags. Доступ к инструментам значительно увеличивает уязвимость всех моделей Claude.

AppLovin Mediation Cipher Broken: Device Fingerprinting Bypasses ATT
Обратная разработка показала, что собственный шифр AppLovin использует постоянную соль + ключ SDK, ГПСЧ SplitMix64 и не имеет аутентификации. Расшифрованные запросы передают около 50 полей устройства (модель, размер экрана, локаль, время загрузки и т.д.) даже при отказе ATT, что позволяет детерминированно идентифицировать устройство в разных приложениях.

Уязвимости функции «Разрешать всегда» в OpenClaw и более безопасные альтернативы
Функция 'разрешить всегда' в OpenClaw стала предметом двух уязвимостей (CVE) в этом месяце, позволяя выполнять несанкционированные команды через привязку команд-обёрток и обходы с помощью символов продолжения строки в оболочке. Более глубокая проблема заключается в том, как эта функция приучает пользователей переставать обращать внимание на запросы безопасности.

Ошибка плагина Claude Code вызывает скачки потребления процессора и разрядку аккумулятора.
Пользователь обнаружил, что плагин Claude Code для Telegram создает несколько процессов bun.exe, которые работают на 100% загрузки ЦП даже при закрытой крышке ноутбука, вызывая быстрый разряд батареи. Процессы сохраняются после циклов сна/пробуждения и требуют специальных шагов для удаления.