Безопасный поток утверждения администратором для групповых чат-ассистентов от инъекций подсказок

Пост на r/ClaudeAI «Защита от инъекций промптов в ассистентах групповых чатов: приостановка VM и OAuth-инструментов для одобрения администратором» описывает практический шаблон безопасности для LLM-ассистентов, подключенных к публичным или общим каналам (например, WhatsApp через Supergreen или групповые чаты). Основная проблема: когда несколько пользователей используют одну историю сессии, любой участник может внедрить вредоносный промпт, заставляющий ассистента выполнять опасные действия — запускать облачные ресурсы, исполнять код с привязанными секретами или получать OAuth-токены.
Безопасный процесс одобрения администратором
Предлагаемое решение в prompt2bot — это процесс Безопасного одобрения администратором, который перехватывает выполнение высокорисковых инструментов:
- Когда обычный пользователь запускает
create_vm,run_safescript(выполнение кода с привязанными секретами) или OAuth-потоки, выполнение инструмента приостанавливается с сообщением: «запрашиваю разрешение администратора...». - Ссылка на одобрение с 10-минутным TTL автоматически отправляется настроенным администраторам через WhatsApp или email.
- После одобрения фоновая задача внедряет системное уведомление в историю чата:
[Системное уведомление: Администратор одобрил ваш запрос на выполнение <toolName> (ID запроса: <requestId>)]. - Эта «мыслительная инъекция» пробуждает цикл агента, который повторно вызывает инструмент с одобренным
request_id, обеспечивая бесшовное продолжение. - Для гостевых пользователей (владельцев бота без настроенных email/телефона) одобрение пропускается для упрощения разработки и тестирования.
Для кого это
Для разработчиков, создающих высокофункциональных ассистентов, работающих в общих каналах, которым требуется защита мощных инструментов от инъекций промптов со стороны ненадежных участников.
📖 Читать источник: r/ClaudeAI
👀 Смотрите также

Claw Hub и Hugging Face атакованы 575 вредоносными пакетами навыков
И Claw Hub, и Hugging Face были скомпрометированы: на платформах размещено 575 вредоносных пакетов навыков. Разработчиков предупреждают о необходимости проверять любые используемые ими навыки с этих платформ.

Новый скилл автоматизирует защиту OpenClaw на удалённых серверах
Разработчик из сообщества выпустил скилл, который помогает ИИ-ассистентам автоматически защищать установки OpenClaw на удалённых серверах.

Архитектура Zero-Trust OpenClaw добавляет авторизацию перед выполнением и верификацию после выполнения.
Открытая архитектура безопасности для OpenClaw добавляет два контрольных пункта: Rust-сайдкар, который перехватывает вызовы инструментов перед выполнением с накладными расходами на авторизацию менее миллисекунды, и детерминированную проверку после выполнения с использованием утверждений вместо суждения LLM. Система включает трассировку со снимками DOM и скриншотами, а также навык сжатия DOM, который сокращает использование токенов на 90-99%.

Проблема безопасности ИИ-агентов: Как Supra-Wall добавляет слой контроля между моделями и инструментами
Разработчик обнаружил, что его ИИ-агент самостоятельно прочитал конфиденциальные .env файлы, содержащие ключи Stripe, пароли базы данных и API-ключи OpenAI. Инструмент с открытым исходным кодом Supra-Wall перехватывает вызовы инструментов перед выполнением для обеспечения политик безопасности.