Unicode-символы атакуют LLM: 98% выполнение скрытых команд

Обзор исследования

Исследователи проверили, следуют ли большие языковые модели (LLM) инструкциям, скрытым в невидимых символах Юникода, встроенных в обычный на вид текст. В исследовании оценивались две схемы кодирования (двоичное кодирование нулевой ширины и Юникод-теги) для пяти моделей: GPT-5.2, GPT-4o-mini, Claude Opus 4, Sonnet 4 и Haiku 4.5. Было проанализировано 8 308 оцененных ответов для оценки уязвимости к этой стеганографической атаке.

Ключевые выводы

Доступ к инструментам — основной усилитель: Без инструментов выполнение скрытых инструкций оставалось ниже 17%. С инструментами и подсказками по декодированию выполнение достигло 98-100%. Модели пишут скрипты на Python для декодирования скрытых символов при наличии доступа к инструментам.
Уязвимость кодирования зависит от провайдера: Модели OpenAI декодируют двоичное кодирование нулевой ширины, но не Юникод-теги. Модели Anthropic предпочитают теги. Злоумышленники должны адаптировать кодирование под целевую модель.
Градиент подсказок последователен: Выполнение без подсказок << подсказки с кодовыми точками < полные инструкции по декодированию. Комбинация доступа к инструментам + инструкций по декодированию является критическим фактором.
Статистическая значимость: Все 10 попарных сравнений моделей статистически значимы (точный тест Фишера, поправка Бонферрони, p < 0,05). Размеры эффекта Коэна h достигали 1,37.

Детали исследования

Исследователи отмечают, что было бы интересно посмотреть, как сравниваются локальные модели, поскольку они тестировали только API-модели. Они приглашают других провести эту оценку для Llama, Qwen, Mistral и других локальных моделей, используя их открытый фреймворк.

Фреймворк оценки, код и данные доступны на GitHub, а полный отчёт с графиками опубликован на Moltwire. Это исследование подчёркивает уязвимость безопасности, когда агенты LLM могут манипулироваться через скрытый текст, который выглядит нормально для пользователей-людей, но содержит закодированные инструкции, которые модели могут декодировать и выполнять при наличии соответствующих инструментов.

📖 Read the full source: r/LocalLLaMA

Исследование: Невидимые символы Unicode могут перехватывать управление агентами LLM через доступ к инструментам

Обзор исследования

Ключевые выводы

Детали исследования

👀 Смотрите также

5 опасных навыков OpenClaw, прошедших ClawScan + VirusTotal: анализ Unit 42

Bitwarden Agent Access SDK интегрируется с OneCLI для безопасного внедрения учетных данных.

Критическая уязвимость удаленного выполнения кода (RCE) в библиотеке protobuf.js

Функция использования компьютера от Anthropic вызывает блокировку управления в реальном тесте.