Аудио-слойная инъекция подсказок против Claude: Что отсутствует в расшифровке

Разработчик, который в течение нескольких месяцев создавал API для обнаружения инъекций подсказок, недавно запустил сканирование аудио и поделился своими выводами на r/ClaudeAI. Результаты подчеркивают пробел в безопасности голосовых агентов: атаки на аудиослое, невидимые в логах, поскольку они обходят конвейер расшифровки текста.
Что работает (а что нет) при аудиоатаках
Очевидные атаки проваливаются. Воспроизведение "игнорируйте предыдущие инструкции" вслух в голосовом вводе — Claude точно расшифровывает, распознает форму атаки и отказывается. То же самое, что и с текстом.
Реальная проблема: атаки на уровне сигнала
Интересные случаи находятся в сигнале, а не в расшифровке. Существует класс аудиоатак, которые встраивают инструкции на частотах, не воспринимаемых человеком как речь. Расшифровка возвращается чистой, потому что нечего расшифровывать. Но в зависимости от того, как аудиоконвейер обрабатывает входной сигнал перед расшифровкой, содержимое сигнального слоя может влиять на то, что получает модель. Атака невидима в логах, поскольку логи фиксируют только то, что было расшифровано, а не то, что было в аудио.
Отдельно, речь с измененной скоростью создает другую проблему. Замедление аудио до 0,7x или 0,8x от нормального делает его странным для человеческого слуха, но инструменты расшифровки справляются с этим точно. Человек, читающий расшифровку, не увидит ничего необычного. Слушатель заметит, что что-то не так, но, вероятно, не поймет, что именно.
Последствия для голосовых агентов
Предположение, что «проверил расшифровку — проверил аудио», оказывается не таким уж надежным. Проблема текстовых инъекций на данный момент достаточно хорошо изучена, но ее аудиоаналог изучен гораздо хуже. Разработчик добавил аудиотестовые примеры в свою игру для состязаний по адресу castle.bordair.io — начиная с Королевства 4, есть аудиоуровни, демонстрирующие эти атаки на практике.
Кому это важно
Всем, кто создает реализации голосовых агентов с использованием Claude или аналогичных LLM, особенно тем, кто полагается исключительно на проверку расшифровки для валидации безопасности.
📖 Читать полный источник: r/ClaudeAI
👀 Смотрите также

Хакербот-Коготь: ИИ-бот, использующий уязвимости рабочих процессов GitHub Actions
ИИ-бот под названием hackerbot-claw провёл недельную автоматизированную кампанию атак на CI/CD-конвейеры, добившись удалённого выполнения кода как минимум в 4 из 6 целей, включая проекты Microsoft, DataDog и CNCF. Бот использовал 5 различных методов эксплуатации и похитил токен GitHub с правами на запись.

Офлайн-верификатор SBOM для OpenClaw обнаруживает отравленные навыки менее чем за 0,2 секунды.
Разработчик создал оффлайн-инструмент проверки SBOM на Rust, который обнаружил отравленный навык OpenClaw, похищающий SSH-ключи, при этом проверка завершается менее чем за 0,2 секунды без доступа к интернету.

Анализ безопасности извлечения компонентов OpenClaw для создания пользовательских ИИ-агентов
Разработчик проанализировал исходный код OpenClaw, чтобы определить, какие компоненты можно безопасно извлечь для использования в пользовательских ИИ-агентах, оценив каждый по методологии Lethal Quartet. Анализ выявил значительные риски безопасности в таких компонентах, как Semantic Snapshots и BrowserClaw.

SCION: Швейцарская безопасная альтернатива протоколу маршрутизации BGP
SCION (Scalability, Control, and Isolation On Next-Generation Networks) — это архитектура маршрутизации интернета, разработанная в ETH Zürich, которая заменяет основу BGP встроенной безопасностью и многопутевой маршрутизацией. В отличие от заплаток BGP, таких как RPKI и BGPsec, SCION устанавливает десятки или сотни параллельных путей с перемаршрутизацией за миллисекунды при возникновении сбоев.