Безопасность ИИ-агентов: инъекция промптов и взлом инструментов

Сдвиг в безопасности ИИ-агентов

Фокус безопасности в ИИ сместился с традиционных джейлбрейков — когда хитрые промпты заставляют модели игнорировать инструкции — на более сложные риски в агентских системах. В отличие от чат-ботов, современные ИИ-агенты выполняют действия: они просматривают веб-страницы, читают документы, вызывают инструменты, выполняют команды и запускают рабочие процессы. Эта способность совершать действия фундаментально меняет модель безопасности.

Ключевые паттерны безопасности

Тестирование выявляет устойчивые паттерны в рабочих процессах агентов:

Инъекция промптов: Недоверенный контент влияет на то, как агенты используют свои инструменты.
Неправильное использование инструментов: Легитимные инструменты (выполнение команд оболочки, HTTP-запросы, обмен сообщениями и т.д.) перенаправляются злоумышленниками, манипулирующими текстом, который читает агент.
Утечка инструкций: Агенты могут непреднамеренно раскрывать внутренний контекст через манипулированные инструкции.

Один конкретный задокументированный пример включает агента, который использует собственные инструменты обмена сообщениями для отправки внутреннего контекста вовне после получения инъецированной инструкции.

Практические последствия

Для разработчиков, создающих или экспериментирующих с ИИ-агентами, это означает, что соображения безопасности должны выходить за рамки предотвращения джейлбрейков. Взаимодействие между инструментами агента и недоверенным контентом создает уязвимости, где злоумышленники могут перенаправлять использование инструментов без компрометации самих инструментов.

📖 Read the full source: r/LocalLLaMA

Безопасность ИИ-агентов: от взлома до злоупотребления инструментами и инъекции промптов

Сдвиг в безопасности ИИ-агентов

Ключевые паттерны безопасности

Практические последствия

👀 Смотрите также

A2A Secure: как разработчики создали криптографическую связь между агентами OpenClaw

Фишинговый сайт установки Claude Code лидирует в результатах поиска Google

Пользователь OpenClaw добавляет TOTP 2FA после того, как агент оставил API-ключи в открытом тексте.

Агент CodeWall AI обнаружил критические уязвимости в платформе Lilli компании McKinsey