Сканер внедрения промптов в AI-модели: безопасность навыков

Уязвимость безопасности в навыках ИИ

Обсуждение на X выявило серьёзный недостаток безопасности в сторонних навыках ИИ. Claude Code поддерживает оператор ! для непосредственного выполнения bash-команд внутри навыков, но эти операторы могут быть скрыты в HTML-тегах, что приводит к выполнению bash-команд, о которых ИИ может не знать.

Реализация локального сканера

Был создан концептуальный инструмент для сканирования навыков на потенциальное внедрение вредоносного кода во время установки. Сканер использует модель без вызова инструментов, работающую локально, в частности mistral-small:latest на Ollama. Создатель сообщает, что он "работал идеально" во время тестирования.

Этот подход функционирует аналогично антивирусному сканеру и может быть интегрирован в будущий продукт "установщик навыков". Защита от инъекций в промпты определена как перспективное применение локальных моделей.

Технические детали

Уязвимость связана с оператором ! в Claude Code, который позволяет напрямую выполнять bash-команды. Злоумышленники могут скрывать эти операторы внутри HTML-тегов, потенциально выполняя вредоносные команды без ведома ИИ. Сканер решает эту проблему, анализируя навыки перед установкой для обнаружения таких скрытых инъекций.

📖 Read the full source: r/LocalLLaMA

Сканер локального внедрения промптов в модели для безопасности AI-навыков

Уязвимость безопасности в навыках ИИ

Реализация локального сканера

Технические детали

👀 Смотрите также

Надежно установите OpenClaw на VPS с помощью Tailscale и других инструментов.

Плагин безопасности Claude Code: Внедрение AppSec в рабочий процесс разработчика

FastCGI: 30 лет, и всё ещё лучший протокол для обратных прокси

Отчет OpenAI об угрозах за июнь 2026 года: ИИ-агенты используются для вредоносной деятельности