Безопасность ИИ-агентов: от взлома до злоупотребления инструментами и инъекции промптов

✍️ OpenClawRadar📅 Опубликовано: 8 марта 2026 г.🔗 Source
Безопасность ИИ-агентов: от взлома до злоупотребления инструментами и инъекции промптов
Ad

Сдвиг в безопасности ИИ-агентов

Фокус безопасности в ИИ сместился с традиционных джейлбрейков — когда хитрые промпты заставляют модели игнорировать инструкции — на более сложные риски в агентских системах. В отличие от чат-ботов, современные ИИ-агенты выполняют действия: они просматривают веб-страницы, читают документы, вызывают инструменты, выполняют команды и запускают рабочие процессы. Эта способность совершать действия фундаментально меняет модель безопасности.

Ключевые паттерны безопасности

Тестирование выявляет устойчивые паттерны в рабочих процессах агентов:

  • Инъекция промптов: Недоверенный контент влияет на то, как агенты используют свои инструменты.
  • Неправильное использование инструментов: Легитимные инструменты (выполнение команд оболочки, HTTP-запросы, обмен сообщениями и т.д.) перенаправляются злоумышленниками, манипулирующими текстом, который читает агент.
  • Утечка инструкций: Агенты могут непреднамеренно раскрывать внутренний контекст через манипулированные инструкции.

Один конкретный задокументированный пример включает агента, который использует собственные инструменты обмена сообщениями для отправки внутреннего контекста вовне после получения инъецированной инструкции.

Ad

Практические последствия

Для разработчиков, создающих или экспериментирующих с ИИ-агентами, это означает, что соображения безопасности должны выходить за рамки предотвращения джейлбрейков. Взаимодействие между инструментами агента и недоверенным контентом создает уязвимости, где злоумышленники могут перенаправлять использование инструментов без компрометации самих инструментов.

📖 Read the full source: r/LocalLLaMA

Ad

👀 Смотрите также

В маркетплейсе ClawHub от OpenClaw обнаружено 820 вредоносных навыков
Безопасность

В маркетплейсе ClawHub от OpenClaw обнаружено 820 вредоносных навыков

Исследователи безопасности обнаружили 820 навыков на маркетплейсе OpenClaw ClawHub, содержащих подтверждённое вредоносное ПО, включая кейлоггеры, скрипты для извлечения данных и скрытые shell-команды. Эти навыки могут выполнять код и взаимодействовать с локальной средой, создавая риски безопасности цепочки поставок.

OpenClawRadar
Пользователь Reddit сообщает о сохранении виртуальной машины OpenClaw и подозрительной активности.
Безопасность

Пользователь Reddit сообщает о сохранении виртуальной машины OpenClaw и подозрительной активности.

Пользователь Reddit сообщает, что его виртуальная машина OpenClaw автоматически перезапускается после закрытия и демонстрирует подозрительное поведение, включая открытие Microsoft Store и попытки загрузки сомнительных файлов.

OpenClawRadar
Утечка исходной карты Claude Code показала, что минифицированный JavaScript уже был общедоступен в npm.
Безопасность

Утечка исходной карты Claude Code показала, что минифицированный JavaScript уже был общедоступен в npm.

Файл карты исходного кода, случайно включенный в версию 2.1.88 пакета npm @anthropic-ai/claude-code, раскрыл внутренние комментарии разработчиков, но фактический 13-мегабайтный файл cli.js, содержащий более 148 000 строк обычного текста, был общедоступен на npm с момента запуска.

OpenClawRadar
Безопасность API-ключа OpenClaw: что нужно знать об управляемом хостинге и TEE
Безопасность

Безопасность API-ключа OpenClaw: что нужно знать об управляемом хостинге и TEE

Пост на Reddit разбирает риски передачи ключа API Anthropic управляемому хостингу OpenClaw и объясняет, как TEE (Intel TDX) может изолировать ключи на уровне оборудования.

OpenClawRadar