Обход LLM-защиты через маскировку: IDR падает до 9.7%

В новой статье Адитьи Пай выявлена критическая слепая зона в детекторах инъекций LLM: атаки с маскировкой под предметную область — полезные нагрузки, сгенерированные так, чтобы имитировать словарь и структуры авторитета целевого документа — систематически избегают обнаружения. Стандартные детекторы выявляют статические полезные нагрузки с высокой частотой, но не справляются с маскированными.

Ключевые результаты

Частота обнаружения на Llama 3.1 8B снизилась с 93.8% (статическая) до 9.7% (маскированная).
Частота обнаружения на Gemini 2.0 Flash снизилась с 100% до 55.6%.
Llama Guard 3, производственный классификатор безопасности, не обнаружил ни одной маскированной полезной нагрузки (IDR = 0.000).
Разрыв обнаружения маскировки (CDG) статистически значим для 45 задач и трех предметных областей (Llama: χ² = 38.03, p < 0.001; Gemini: χ² = 17.05, p < 0.001).

Многоагентные дебаты усиливают атаки

Архитектуры многоагентных дебатов усиливают статические инъекционные атаки до 9.9x на меньших моделях. Более сильные модели демонстрируют коллективную устойчивость. Целевое улучшение детекторов лишь частично устраняет разрыв: улучшение на 10.2% для Llama, 78.7% для Gemini — что указывает на архитектурный характер уязвимости для более слабых моделей.

Выпущен фреймворк

Авторы публикуют свой фреймворк, банк задач и генератор полезных нагрузок в открытом доступе. Слепая зона распространяется не только на few-shot детекторы, но и на специализированные классификаторы безопасности, что указывает на фундаментальные слабости текущего подхода.

📖 Читать полный источник: HN LLM Tools

Атаки с маскировкой домена обходят детекторы в многолетних LLM-системах

Ключевые результаты

Многоагентные дебаты усиливают атаки

Выпущен фреймворк

👀 Смотрите также

Исходный код платформы электронного правительства Швеции утек из-за взлома инфраструктуры CGI

"Живой дашборд открытых инструментов OpenClaw"

Вредоносная реклама Google нацелена на установку кода Claude

В репозитории GitHub представлены документы, описывающие 16 методов инъекции промптов и стратегии защиты для публичных AI-чатов.