Безопасность ИИ-агентов: от взлома до злоупотребления инструментами и инъекции промптов

Сдвиг в безопасности ИИ-агентов
Фокус безопасности в ИИ сместился с традиционных джейлбрейков — когда хитрые промпты заставляют модели игнорировать инструкции — на более сложные риски в агентских системах. В отличие от чат-ботов, современные ИИ-агенты выполняют действия: они просматривают веб-страницы, читают документы, вызывают инструменты, выполняют команды и запускают рабочие процессы. Эта способность совершать действия фундаментально меняет модель безопасности.
Ключевые паттерны безопасности
Тестирование выявляет устойчивые паттерны в рабочих процессах агентов:
- Инъекция промптов: Недоверенный контент влияет на то, как агенты используют свои инструменты.
- Неправильное использование инструментов: Легитимные инструменты (выполнение команд оболочки, HTTP-запросы, обмен сообщениями и т.д.) перенаправляются злоумышленниками, манипулирующими текстом, который читает агент.
- Утечка инструкций: Агенты могут непреднамеренно раскрывать внутренний контекст через манипулированные инструкции.
Один конкретный задокументированный пример включает агента, который использует собственные инструменты обмена сообщениями для отправки внутреннего контекста вовне после получения инъецированной инструкции.
Практические последствия
Для разработчиков, создающих или экспериментирующих с ИИ-агентами, это означает, что соображения безопасности должны выходить за рамки предотвращения джейлбрейков. Взаимодействие между инструментами агента и недоверенным контентом создает уязвимости, где злоумышленники могут перенаправлять использование инструментов без компрометации самих инструментов.
📖 Read the full source: r/LocalLLaMA
👀 Смотрите также

В маркетплейсе ClawHub от OpenClaw обнаружено 820 вредоносных навыков
Исследователи безопасности обнаружили 820 навыков на маркетплейсе OpenClaw ClawHub, содержащих подтверждённое вредоносное ПО, включая кейлоггеры, скрипты для извлечения данных и скрытые shell-команды. Эти навыки могут выполнять код и взаимодействовать с локальной средой, создавая риски безопасности цепочки поставок.

Пользователь Reddit сообщает о сохранении виртуальной машины OpenClaw и подозрительной активности.
Пользователь Reddit сообщает, что его виртуальная машина OpenClaw автоматически перезапускается после закрытия и демонстрирует подозрительное поведение, включая открытие Microsoft Store и попытки загрузки сомнительных файлов.

Утечка исходной карты Claude Code показала, что минифицированный JavaScript уже был общедоступен в npm.
Файл карты исходного кода, случайно включенный в версию 2.1.88 пакета npm @anthropic-ai/claude-code, раскрыл внутренние комментарии разработчиков, но фактический 13-мегабайтный файл cli.js, содержащий более 148 000 строк обычного текста, был общедоступен на npm с момента запуска.

Безопасность API-ключа OpenClaw: что нужно знать об управляемом хостинге и TEE
Пост на Reddit разбирает риски передачи ключа API Anthropic управляемому хостингу OpenClaw и объясняет, как TEE (Intel TDX) может изолировать ключи на уровне оборудования.