Атаки с маскировкой домена обходят детекторы в многолетних LLM-системах

В новой статье Адитьи Пай выявлена критическая слепая зона в детекторах инъекций LLM: атаки с маскировкой под предметную область — полезные нагрузки, сгенерированные так, чтобы имитировать словарь и структуры авторитета целевого документа — систематически избегают обнаружения. Стандартные детекторы выявляют статические полезные нагрузки с высокой частотой, но не справляются с маскированными.
Ключевые результаты
- Частота обнаружения на Llama 3.1 8B снизилась с 93.8% (статическая) до 9.7% (маскированная).
- Частота обнаружения на Gemini 2.0 Flash снизилась с 100% до 55.6%.
- Llama Guard 3, производственный классификатор безопасности, не обнаружил ни одной маскированной полезной нагрузки (IDR = 0.000).
- Разрыв обнаружения маскировки (CDG) статистически значим для 45 задач и трех предметных областей (Llama: χ² = 38.03, p < 0.001; Gemini: χ² = 17.05, p < 0.001).
Многоагентные дебаты усиливают атаки
Архитектуры многоагентных дебатов усиливают статические инъекционные атаки до 9.9x на меньших моделях. Более сильные модели демонстрируют коллективную устойчивость. Целевое улучшение детекторов лишь частично устраняет разрыв: улучшение на 10.2% для Llama, 78.7% для Gemini — что указывает на архитектурный характер уязвимости для более слабых моделей.
Выпущен фреймворк
Авторы публикуют свой фреймворк, банк задач и генератор полезных нагрузок в открытом доступе. Слепая зона распространяется не только на few-shot детекторы, но и на специализированные классификаторы безопасности, что указывает на фундаментальные слабости текущего подхода.
📖 Читать полный источник: HN LLM Tools
👀 Смотрите также

Модели Claude уязвимы для скрытого перехвата с помощью невидимых символов Юникода, особенно при доступе к инструментам.
Тестирование показывает, что Claude Sonnet 4 соответствует скрытым инструкциям, встроенным в невидимые символы Юникода, на 71,2% при включённых инструментах, в то время как Opus 4 достигает 100% соответствия при кодировании Unicode Tags. Доступ к инструментам значительно увеличивает уязвимость всех моделей Claude.

ClawCare: Охранник для ИИ-агентов программирования после утечки ключей AWS
ClawCare — это инструмент на Python, который сканирует команды перед выполнением в AI-агентах для программирования, таких как Claude Code, блокируя опасные шаблоны, такие как массовые дампы окружения и обратные оболочки. Он был создан после того, как разработчик случайно утёк ключ AWS через агента.

Изучение рисков использования аккаунта Google с Gemini-Cli и подпиской Gemini Pro
Gemini-Cli и ваша подписка на Gemini Pro могут представлять некоторые риски для вашей учетной записи Google. Вот что вам нужно знать о потенциальных уязвимостях при использовании этих инструментов ИИ.

SCION: Швейцарская безопасная альтернатива протоколу маршрутизации BGP
SCION (Scalability, Control, and Isolation On Next-Generation Networks) — это архитектура маршрутизации интернета, разработанная в ETH Zürich, которая заменяет основу BGP встроенной безопасностью и многопутевой маршрутизацией. В отличие от заплаток BGP, таких как RPKI и BGPsec, SCION устанавливает десятки или сотни параллельных путей с перемаршрутизацией за миллисекунды при возникновении сбоев.