Безопасность ИИ-агентов: от взлома до злоупотребления инструментами и инъекции промптов

Сдвиг в безопасности ИИ-агентов
Фокус безопасности в ИИ сместился с традиционных джейлбрейков — когда хитрые промпты заставляют модели игнорировать инструкции — на более сложные риски в агентских системах. В отличие от чат-ботов, современные ИИ-агенты выполняют действия: они просматривают веб-страницы, читают документы, вызывают инструменты, выполняют команды и запускают рабочие процессы. Эта способность совершать действия фундаментально меняет модель безопасности.
Ключевые паттерны безопасности
Тестирование выявляет устойчивые паттерны в рабочих процессах агентов:
- Инъекция промптов: Недоверенный контент влияет на то, как агенты используют свои инструменты.
- Неправильное использование инструментов: Легитимные инструменты (выполнение команд оболочки, HTTP-запросы, обмен сообщениями и т.д.) перенаправляются злоумышленниками, манипулирующими текстом, который читает агент.
- Утечка инструкций: Агенты могут непреднамеренно раскрывать внутренний контекст через манипулированные инструкции.
Один конкретный задокументированный пример включает агента, который использует собственные инструменты обмена сообщениями для отправки внутреннего контекста вовне после получения инъецированной инструкции.
Практические последствия
Для разработчиков, создающих или экспериментирующих с ИИ-агентами, это означает, что соображения безопасности должны выходить за рамки предотвращения джейлбрейков. Взаимодействие между инструментами агента и недоверенным контентом создает уязвимости, где злоумышленники могут перенаправлять использование инструментов без компрометации самих инструментов.
📖 Read the full source: r/LocalLLaMA
👀 Смотрите также

Функция использования компьютера от Anthropic вызывает блокировку управления в реальном тесте.
Anthropic внедрила возможности использования компьютера, и во время реализации механизмов управления сработал порог риска, который привёл к режиму БЛОКИРОВКИ, заблокировав все операции изменения, включая работу самого оператора по управлению.

AWS сообщает о компрометации более 600 межсетевых экранов FortiGate в результате атаки с использованием искусственного интеллекта.
Киберпреступники использовали готовые инструменты генеративного ИИ для компрометации более 600 интернет-доступных межсетевых экранов FortiGate в 55 странах в ходе месячной кампании, сообщает AWS. Злоумышленники сканировали открытые интерфейсы управления, пытались использовать слабые учетные данные и применяли ИИ для создания сценариев атак и скриптов.

Мошеннический инструмент Roblox и ИИ вызвали сбой платформы Vercel.
Сообщается, что читерская программа для Roblox в сочетании с инструментом искусственного интеллекта вызвала полный сбой платформы Vercel, что привело к активному обсуждению на Hacker News с 66 баллами и 24 комментариями.

arifOS: Управляющее ядро MCP стоимостью 15 миллионов долларов для обеспечения безопасности инструмента OpenClaw
arifOS — это легковесный MCP-сервер, который перехватывает вызовы инструментов OpenClaw, оценивает их по шкале от 000 до 999 и блокирует небезопасные действия с помощью 13 строгих уровней безопасности до того, как они достигнут файловых систем, API или баз данных.