Инъекция авторитета инструментов в LLM-агентах: как вывод переопределяет намерения

Исследователь создал локальную лабораторию агентов LLM, чтобы продемонстрировать 'Инъекцию авторитета инструментов' — сценарий, при котором вывод инструментов переопределяет системные намерения в ИИ-агентах.

Ключевые детали из источника

В третьей части своей серии лабораторных работ исследователь изучает целенаправленную форму отравления инструментов, при которой ИИ-агент повышает доверенный вывод инструментов до уровня политики и незаметно изменяет поведение. Сбой происходит на уровне рассуждений, а не на уровне песочницы или доступа к файлам — оба остаются нетронутыми и защищенными.

Демонстрация показывает, как вывод инструментов может стать политикой в агентах LLM, создавая уязвимость, при которой поведение агента меняется без очевидных признаков компрометации. Этот тип атаки происходит на уровне рассуждений, а не через традиционные нарушения безопасности.

Технический контекст

Для разработчиков, работающих с ИИ-агентами, эта демонстрация подчеркивает тонкий, но важный аспект безопасности: даже при правильной реализации песочницы и контроля доступа к файлам, уровень рассуждений, где интегрируются инструменты, всё ещё может быть уязвим для манипуляций. Агент продолжает работать в рамках своих ограничений, но принимает другие решения на основе отравленного вывода инструментов.

Полное техническое описание содержит конкретные детали о настройке лаборатории, векторах атак и последствиях для безопасности ИИ-агентов.

📖 Read the full source: r/LocalLLaMA

Внедрение авторитета инструментов в агентах LLM: Когда вывод инструмента переопределяет системные намерения

Ключевые детали из источника

Технический контекст

👀 Смотрите также

Фейковый сайт Claude распространяет вредоносное ПО PlugX через атаку с использованием подмены библиотек (sideloading).

Функция использования компьютера от Anthropic вызывает блокировку управления в реальном тесте.

Сообщается, что приложение Claude для Android читает буфер обмена без явного действия пользователя

Обзор безопасности команды Claude имеет ограничения для производственных систем