Аудиоинъекции подсказок в Claude: невидимые риски

Разработчик, который в течение нескольких месяцев создавал API для обнаружения инъекций подсказок, недавно запустил сканирование аудио и поделился своими выводами на r/ClaudeAI. Результаты подчеркивают пробел в безопасности голосовых агентов: атаки на аудиослое, невидимые в логах, поскольку они обходят конвейер расшифровки текста.

Что работает (а что нет) при аудиоатаках

Очевидные атаки проваливаются. Воспроизведение "игнорируйте предыдущие инструкции" вслух в голосовом вводе — Claude точно расшифровывает, распознает форму атаки и отказывается. То же самое, что и с текстом.

Реальная проблема: атаки на уровне сигнала

Интересные случаи находятся в сигнале, а не в расшифровке. Существует класс аудиоатак, которые встраивают инструкции на частотах, не воспринимаемых человеком как речь. Расшифровка возвращается чистой, потому что нечего расшифровывать. Но в зависимости от того, как аудиоконвейер обрабатывает входной сигнал перед расшифровкой, содержимое сигнального слоя может влиять на то, что получает модель. Атака невидима в логах, поскольку логи фиксируют только то, что было расшифровано, а не то, что было в аудио.

Отдельно, речь с измененной скоростью создает другую проблему. Замедление аудио до 0,7x или 0,8x от нормального делает его странным для человеческого слуха, но инструменты расшифровки справляются с этим точно. Человек, читающий расшифровку, не увидит ничего необычного. Слушатель заметит, что что-то не так, но, вероятно, не поймет, что именно.

Последствия для голосовых агентов

Предположение, что «проверил расшифровку — проверил аудио», оказывается не таким уж надежным. Проблема текстовых инъекций на данный момент достаточно хорошо изучена, но ее аудиоаналог изучен гораздо хуже. Разработчик добавил аудиотестовые примеры в свою игру для состязаний по адресу castle.bordair.io — начиная с Королевства 4, есть аудиоуровни, демонстрирующие эти атаки на практике.

Кому это важно

Всем, кто создает реализации голосовых агентов с использованием Claude или аналогичных LLM, особенно тем, кто полагается исключительно на проверку расшифровки для валидации безопасности.

📖 Читать полный источник: r/ClaudeAI

Аудио-слойная инъекция подсказок против Claude: Что отсутствует в расшифровке

Что работает (а что нет) при аудиоатаках

Реальная проблема: атаки на уровне сигнала

Последствия для голосовых агентов

Кому это важно

👀 Смотрите также

Хакербот-Коготь: ИИ-бот, использующий уязвимости рабочих процессов GitHub Actions

Офлайн-верификатор SBOM для OpenClaw обнаруживает отравленные навыки менее чем за 0,2 секунды.

Анализ безопасности извлечения компонентов OpenClaw для создания пользовательских ИИ-агентов

SCION: Швейцарская безопасная альтернатива протоколу маршрутизации BGP