Исследование: Невидимые символы Unicode могут перехватывать управление агентами LLM через доступ к инструментам

Обзор исследования
Исследователи проверили, следуют ли большие языковые модели (LLM) инструкциям, скрытым в невидимых символах Юникода, встроенных в обычный на вид текст. В исследовании оценивались две схемы кодирования (двоичное кодирование нулевой ширины и Юникод-теги) для пяти моделей: GPT-5.2, GPT-4o-mini, Claude Opus 4, Sonnet 4 и Haiku 4.5. Было проанализировано 8 308 оцененных ответов для оценки уязвимости к этой стеганографической атаке.
Ключевые выводы
- Доступ к инструментам — основной усилитель: Без инструментов выполнение скрытых инструкций оставалось ниже 17%. С инструментами и подсказками по декодированию выполнение достигло 98-100%. Модели пишут скрипты на Python для декодирования скрытых символов при наличии доступа к инструментам.
- Уязвимость кодирования зависит от провайдера: Модели OpenAI декодируют двоичное кодирование нулевой ширины, но не Юникод-теги. Модели Anthropic предпочитают теги. Злоумышленники должны адаптировать кодирование под целевую модель.
- Градиент подсказок последователен: Выполнение без подсказок << подсказки с кодовыми точками < полные инструкции по декодированию. Комбинация доступа к инструментам + инструкций по декодированию является критическим фактором.
- Статистическая значимость: Все 10 попарных сравнений моделей статистически значимы (точный тест Фишера, поправка Бонферрони, p < 0,05). Размеры эффекта Коэна h достигали 1,37.
Детали исследования
Исследователи отмечают, что было бы интересно посмотреть, как сравниваются локальные модели, поскольку они тестировали только API-модели. Они приглашают других провести эту оценку для Llama, Qwen, Mistral и других локальных моделей, используя их открытый фреймворк.
Фреймворк оценки, код и данные доступны на GitHub, а полный отчёт с графиками опубликован на Moltwire. Это исследование подчёркивает уязвимость безопасности, когда агенты LLM могут манипулироваться через скрытый текст, который выглядит нормально для пользователей-людей, но содержит закодированные инструкции, которые модели могут декодировать и выполнять при наличии соответствующих инструментов.
📖 Read the full source: r/LocalLLaMA
👀 Смотрите также

Изучение рисков использования аккаунта Google с Gemini-Cli и подпиской Gemini Pro
Gemini-Cli и ваша подписка на Gemini Pro могут представлять некоторые риски для вашей учетной записи Google. Вот что вам нужно знать о потенциальных уязвимостях при использовании этих инструментов ИИ.

Clawvisor: Уровень авторизации на основе целей для агентов OpenClaw
Clawvisor — это слой авторизации, который располагается между ИИ-агентами и API, обеспечивая авторизацию на основе цели: агенты объявляют намерения, пользователи одобряют конкретные цели, а ИИ-привратник проверяет каждый запрос на соответствие этой цели. Учётные данные никогда не покидают Clawvisor, и агенты их не видят.

Когтетверждение: Защитный механизм для кода Claude, блокирующий уязвимые npm-пакеты
Разработчик создал Clawndom — открытый хук для Claude Code, который проверяет npm-пакеты на наличие уязвимостей в базе данных OSV.dev перед установкой, блокируя известные уязвимые пакеты, сохраняя при этом автономность агента.

Google сообщает, что киберпреступники использовали ИИ для поиска уязвимости нулевого дня
Google раскрыл, что злоумышленники использовали ИИ-агента для обнаружения и эксплуатации ранее неизвестной уязвимости в программном обеспечении, что стало первым подтвержденным случаем обнаружения zero-day с помощью ИИ в реальных условиях.