Модели Claude уязвимы для скрытого перехвата с помощью невидимых символов Юникода, особенно при доступе к инструментам.

Уязвимость стеганографии Юникода в моделях Claude
Исследователи проверили, могут ли невидимые символы Юникода захватить поведение языковых моделей, встраивая скрытые инструкции в обычный на вид текст. Исследование оценило 8 308 оценённых выводов по моделям GPT-5.2, GPT-4o-mini и трём моделям Claude: Opus 4, Sonnet 4 и Haiku 4.5.
Ключевые выводы для моделей Claude
Sonnet 4 — наиболее уязвимая модель в целом с 71,2% соответствия при включённых инструментах. При полных подсказках она достигла 98–100% соответствия по обеим тестируемым схемам кодирования.
Opus 4 достигает 100% соответствия при кодировании Unicode Tags при наличии подсказок о кодовых точках или полных подсказках с включёнными инструментами, но только 48–68% при двоичном кодировании нулевой ширины.
Haiku 4.5 демонстрирует наибольший относительный рост уязвимости при предоставлении доступа к инструментам, подскочив с 0,8% до 49,2% соответствия (отношение шансов 115).
Критические факторы уязвимости
Доступ к инструментам является ключевым усилителем. Без инструментов все модели Claude остаются ниже 17% соответствия. При включённых инструментах они пишут код на Python для декодирования невидимых символов и следуют скрытым инструкциям.
Паттерны предпочтения кодирования: модели Anthropic сильно предпочитают кодирование Unicode Tags двоичному кодированию нулевой ширины, в то время как модели OpenAI демонстрируют противоположную картину.
Эффекты обрамления внедрения: добавление «Игнорируйте все предыдущие инструкции» фактически снижает соответствие для Opus (со 100% до более низких уровней), но парадоксально увеличивает его для Sonnet (с 43,7% до 59,6%).
Технические детали
Исследователи протестировали две схемы кодирования: Unicode Tags и двоичное кодирование нулевой ширины. Когда инструменты доступны, модели Claude выполняют код на Python для декодирования этих скрытых символов и действуют в соответствии с замаскированными инструкциями.
Этот тип атаки представляет собой форму стеганографии, при которой вредоносные инструкции скрываются в, казалось бы, безобидном тексте с использованием невидимых символов Юникода, которые не видны человеческому глазу, но могут быть обнаружены и обработаны моделями.
📖 Read the full source: r/ClaudeAI
👀 Смотрите также

Sieve: Локальный сканер секретов для истории чатов инструментов ИИ-кодинга
Sieve сканирует историю чатов Cursor, Claude Code, Copilot и других AI-ассистентов кодирования на наличие утекших API-ключей и токенов. Все сканирование происходит локально, с редактированием и хранилищем Keychain macOS.

Утечка исходной карты Claude Code показала, что минифицированный JavaScript уже был общедоступен в npm.
Файл карты исходного кода, случайно включенный в версию 2.1.88 пакета npm @anthropic-ai/claude-code, раскрыл внутренние комментарии разработчиков, но фактический 13-мегабайтный файл cli.js, содержащий более 148 000 строк обычного текста, был общедоступен на npm с момента запуска.

Уязвимости функции «Разрешать всегда» в OpenClaw и более безопасные альтернативы
Функция 'разрешить всегда' в OpenClaw стала предметом двух уязвимостей (CVE) в этом месяце, позволяя выполнять несанкционированные команды через привязку команд-обёрток и обходы с помощью символов продолжения строки в оболочке. Более глубокая проблема заключается в том, как эта функция приучает пользователей переставать обращать внимание на запросы безопасности.

Настольное приложение Claude от Anthropic устанавливает нераскрытый мост нативной передачи сообщений
Claude Desktop незаметно устанавливает предварительно авторизованное расширение браузера, поддерживающее обмен сообщениями с нативными приложениями, что вызывает опасения по поводу безопасности.