Защита от инъекций промптов в групповых чатах

Пост на r/ClaudeAI «Защита от инъекций промптов в ассистентах групповых чатов: приостановка VM и OAuth-инструментов для одобрения администратором» описывает практический шаблон безопасности для LLM-ассистентов, подключенных к публичным или общим каналам (например, WhatsApp через Supergreen или групповые чаты). Основная проблема: когда несколько пользователей используют одну историю сессии, любой участник может внедрить вредоносный промпт, заставляющий ассистента выполнять опасные действия — запускать облачные ресурсы, исполнять код с привязанными секретами или получать OAuth-токены.

Безопасный процесс одобрения администратором

Предлагаемое решение в prompt2bot — это процесс Безопасного одобрения администратором, который перехватывает выполнение высокорисковых инструментов:

Когда обычный пользователь запускает create_vm, run_safescript (выполнение кода с привязанными секретами) или OAuth-потоки, выполнение инструмента приостанавливается с сообщением: «запрашиваю разрешение администратора...».
Ссылка на одобрение с 10-минутным TTL автоматически отправляется настроенным администраторам через WhatsApp или email.
После одобрения фоновая задача внедряет системное уведомление в историю чата: [Системное уведомление: Администратор одобрил ваш запрос на выполнение <toolName> (ID запроса: <requestId>)].
Эта «мыслительная инъекция» пробуждает цикл агента, который повторно вызывает инструмент с одобренным request_id, обеспечивая бесшовное продолжение.
Для гостевых пользователей (владельцев бота без настроенных email/телефона) одобрение пропускается для упрощения разработки и тестирования.

Для кого это

Для разработчиков, создающих высокофункциональных ассистентов, работающих в общих каналах, которым требуется защита мощных инструментов от инъекций промптов со стороны ненадежных участников.

📖 Читать источник: r/ClaudeAI

Безопасный поток утверждения администратором для групповых чат-ассистентов от инъекций подсказок

Безопасный процесс одобрения администратором

Для кого это

👀 Смотрите также

В маркетплейсе ClawHub от OpenClaw обнаружено 820 вредоносных навыков

OpenClaw 2026.3.28 исправляет 8 уязвимостей в системе безопасности, включая критическую уязвимость, позволяющую повысить привилегии.

Всплеск серьезности уязвимостей CVE после предварительного релиза Claude Mythos — данные Epoch AI

Утечка исходной карты Claude Code показала, что минифицированный JavaScript уже был общедоступен в npm.