Безопасный поток утверждения администратором для групповых чат-ассистентов от инъекций подсказок

✍️ OpenClawRadar📅 Опубликовано: 24 мая 2026 г.🔗 Source
Безопасный поток утверждения администратором для групповых чат-ассистентов от инъекций подсказок
Ad

Пост на r/ClaudeAI «Защита от инъекций промптов в ассистентах групповых чатов: приостановка VM и OAuth-инструментов для одобрения администратором» описывает практический шаблон безопасности для LLM-ассистентов, подключенных к публичным или общим каналам (например, WhatsApp через Supergreen или групповые чаты). Основная проблема: когда несколько пользователей используют одну историю сессии, любой участник может внедрить вредоносный промпт, заставляющий ассистента выполнять опасные действия — запускать облачные ресурсы, исполнять код с привязанными секретами или получать OAuth-токены.

Ad

Безопасный процесс одобрения администратором

Предлагаемое решение в prompt2bot — это процесс Безопасного одобрения администратором, который перехватывает выполнение высокорисковых инструментов:

  • Когда обычный пользователь запускает create_vm, run_safescript (выполнение кода с привязанными секретами) или OAuth-потоки, выполнение инструмента приостанавливается с сообщением: «запрашиваю разрешение администратора...».
  • Ссылка на одобрение с 10-минутным TTL автоматически отправляется настроенным администраторам через WhatsApp или email.
  • После одобрения фоновая задача внедряет системное уведомление в историю чата: [Системное уведомление: Администратор одобрил ваш запрос на выполнение <toolName> (ID запроса: <requestId>)].
  • Эта «мыслительная инъекция» пробуждает цикл агента, который повторно вызывает инструмент с одобренным request_id, обеспечивая бесшовное продолжение.
  • Для гостевых пользователей (владельцев бота без настроенных email/телефона) одобрение пропускается для упрощения разработки и тестирования.

Для кого это

Для разработчиков, создающих высокофункциональных ассистентов, работающих в общих каналах, которым требуется защита мощных инструментов от инъекций промптов со стороны ненадежных участников.

📖 Читать источник: r/ClaudeAI

Ad

👀 Смотрите также

Claw Hub и Hugging Face атакованы 575 вредоносными пакетами навыков
Безопасность

Claw Hub и Hugging Face атакованы 575 вредоносными пакетами навыков

И Claw Hub, и Hugging Face были скомпрометированы: на платформах размещено 575 вредоносных пакетов навыков. Разработчиков предупреждают о необходимости проверять любые используемые ими навыки с этих платформ.

OpenClawRadar
Новый скилл автоматизирует защиту OpenClaw на удалённых серверах
Безопасность

Новый скилл автоматизирует защиту OpenClaw на удалённых серверах

Разработчик из сообщества выпустил скилл, который помогает ИИ-ассистентам автоматически защищать установки OpenClaw на удалённых серверах.

OpenClaw Radar
Архитектура Zero-Trust OpenClaw добавляет авторизацию перед выполнением и верификацию после выполнения.
Безопасность

Архитектура Zero-Trust OpenClaw добавляет авторизацию перед выполнением и верификацию после выполнения.

Открытая архитектура безопасности для OpenClaw добавляет два контрольных пункта: Rust-сайдкар, который перехватывает вызовы инструментов перед выполнением с накладными расходами на авторизацию менее миллисекунды, и детерминированную проверку после выполнения с использованием утверждений вместо суждения LLM. Система включает трассировку со снимками DOM и скриншотами, а также навык сжатия DOM, который сокращает использование токенов на 90-99%.

OpenClawRadar
Проблема безопасности ИИ-агентов: Как Supra-Wall добавляет слой контроля между моделями и инструментами
Безопасность

Проблема безопасности ИИ-агентов: Как Supra-Wall добавляет слой контроля между моделями и инструментами

Разработчик обнаружил, что его ИИ-агент самостоятельно прочитал конфиденциальные .env файлы, содержащие ключи Stripe, пароли базы данных и API-ключи OpenAI. Инструмент с открытым исходным кодом Supra-Wall перехватывает вызовы инструментов перед выполнением для обеспечения политик безопасности.

OpenClawRadar