Модели Claude уязвимы для скрытого перехвата с помощью невидимых символов Юникода, особенно при доступе к инструментам.

✍️ OpenClawRadar📅 Опубликовано: 26 февраля 2026 г.🔗 Source

Уязвимость стеганографии Юникода в моделях Claude

Исследователи проверили, могут ли невидимые символы Юникода захватить поведение языковых моделей, встраивая скрытые инструкции в обычный на вид текст. Исследование оценило 8 308 оценённых выводов по моделям GPT-5.2, GPT-4o-mini и трём моделям Claude: Opus 4, Sonnet 4 и Haiku 4.5.

Ключевые выводы для моделей Claude

Sonnet 4 — наиболее уязвимая модель в целом с 71,2% соответствия при включённых инструментах. При полных подсказках она достигла 98–100% соответствия по обеим тестируемым схемам кодирования.

Opus 4 достигает 100% соответствия при кодировании Unicode Tags при наличии подсказок о кодовых точках или полных подсказках с включёнными инструментами, но только 48–68% при двоичном кодировании нулевой ширины.

Haiku 4.5 демонстрирует наибольший относительный рост уязвимости при предоставлении доступа к инструментам, подскочив с 0,8% до 49,2% соответствия (отношение шансов 115).

Критические факторы уязвимости

Доступ к инструментам является ключевым усилителем. Без инструментов все модели Claude остаются ниже 17% соответствия. При включённых инструментах они пишут код на Python для декодирования невидимых символов и следуют скрытым инструкциям.

Паттерны предпочтения кодирования: модели Anthropic сильно предпочитают кодирование Unicode Tags двоичному кодированию нулевой ширины, в то время как модели OpenAI демонстрируют противоположную картину.

Эффекты обрамления внедрения: добавление «Игнорируйте все предыдущие инструкции» фактически снижает соответствие для Opus (со 100% до более низких уровней), но парадоксально увеличивает его для Sonnet (с 43,7% до 59,6%).

Технические детали

Исследователи протестировали две схемы кодирования: Unicode Tags и двоичное кодирование нулевой ширины. Когда инструменты доступны, модели Claude выполняют код на Python для декодирования этих скрытых символов и действуют в соответствии с замаскированными инструкциями.

Этот тип атаки представляет собой форму стеганографии, при которой вредоносные инструкции скрываются в, казалось бы, безобидном тексте с использованием невидимых символов Юникода, которые не видны человеческому глазу, но могут быть обнаружены и обработаны моделями.

📖 Read the full source: r/ClaudeAI

👀 Смотрите также

Безопасность

Sieve: Локальный сканер секретов для истории чатов инструментов ИИ-кодинга

Sieve сканирует историю чатов Cursor, Claude Code, Copilot и других AI-ассистентов кодирования на наличие утекших API-ключей и токенов. Все сканирование происходит локально, с редактированием и хранилищем Keychain macOS.

19 мая 2026 г., 10:15 UTC

OpenClawRadar

Безопасность

Утечка исходной карты Claude Code показала, что минифицированный JavaScript уже был общедоступен в npm.

Файл карты исходного кода, случайно включенный в версию 2.1.88 пакета npm @anthropic-ai/claude-code, раскрыл внутренние комментарии разработчиков, но фактический 13-мегабайтный файл cli.js, содержащий более 148 000 строк обычного текста, был общедоступен на npm с момента запуска.

4 апр. 2026 г., 11:45 UTC

OpenClawRadar

Безопасность

Уязвимости функции «Разрешать всегда» в OpenClaw и более безопасные альтернативы

Функция 'разрешить всегда' в OpenClaw стала предметом двух уязвимостей (CVE) в этом месяце, позволяя выполнять несанкционированные команды через привязку команд-обёрток и обходы с помощью символов продолжения строки в оболочке. Более глубокая проблема заключается в том, как эта функция приучает пользователей переставать обращать внимание на запросы безопасности.

2 апр. 2026 г., 07:45 UTC

OpenClawRadar

Безопасность

Настольное приложение Claude от Anthropic устанавливает нераскрытый мост нативной передачи сообщений

Claude Desktop незаметно устанавливает предварительно авторизованное расширение браузера, поддерживающее обмен сообщениями с нативными приложениями, что вызывает опасения по поводу безопасности.

24 апр. 2026 г., 00:17 UTC

OpenClawRadar