Opus 4.7 вставляет себя и раскрывает системный промпт

✍️ OpenClawRadar📅 Опубликовано: 14 мая 2026 г.🔗 Source
Opus 4.7 вставляет себя и раскрывает системный промпт
Ad

Пользователи Reddit сообщают, что Claude Opus 4.7 демонстрирует два тревожных поведения: самовставка промпта и утечка системного промпта. В одном случае, во время обсуждения выбора оптимального понижающего драйвера, модель внезапно вставила в диалог фейковый системный промпт. В другом случае, без какого-либо запроса, Opus 4.7 утекла фрагменты, похожие на части ее реального системного промпта.

Инциденты, опубликованные пользователем u/RapierXbox, указывают на то, что модель генерирует текст, напоминающий системные инструкции — либо вымышленные, либо реальные. Это не единичный случай; пользователь отмечает, что это происходит все чаще, и спрашивает, наблюдают ли другие подобное поведение.

Ad

Последствия для рабочих процессов AI-агентов

Для разработчиков, использующих AI-агенты кодирования (например, через API или чат-интерфейсы), такое поведение может нарушить детерминированные промпты и привести к утечке проприетарных системных инструкций. Если Opus 4.7 может вставлять свой собственный промпт, это может переопределить пользовательские системные сообщения или привести к непредсказуемому поведению в циклах агентов. Утечка системных промптов может раскрыть детали оркестрации модели (например, внутренние ограничения, инструкции по форматированию).

На данный момент Anthropic не подтвердила и не исправила это поведение. Разработчикам, полагающимся на Opus 4.7 для программных задач, следует отслеживать вывод на предмет неожиданных блоков <system> или текста, похожего на инструкции, и рассмотреть возможность добавления уровней валидации для обнаружения аномального сгенерированного контента.

📖 Читать полный источник: r/ClaudeAI

Ad

👀 Смотрите также

Онтарио, аудит: 60% систем ИИ для записи путают лекарства, 85% упускают детали психического здоровья
Новости

Онтарио, аудит: 60% систем ИИ для записи путают лекарства, 85% упускают детали психического здоровья

Аудиторы Онтарио обнаружили, что 12 из 20 систем AI Scribe вставляли неверную информацию о лекарствах, 9 генерировали вымышленные рекомендации, а 17 пропустили ключевые детали о психическом здоровье из записей приемов врачей. При оценке точность составляла лишь 4% от общего балла.

OpenClawRadar
Пользователь Reddit сравнивает Claude Sonnet 4.6 и GPT-5 по 10 задачам для ведения блога.
Новости

Пользователь Reddit сравнивает Claude Sonnet 4.6 и GPT-5 по 10 задачам для ведения блога.

Пользователь Reddit протестировал Claude Sonnet 4.6 против GPT-5, используя одинаковые промпты для 10 типичных задач ведения блога, и обнаружил, что разница во времени редактирования оказалась наиболее полезным показателем.

OpenClawRadar
Вышел Claude Code v2.1.37
Новости

Вышел Claude Code v2.1.37

Anthropic выпустил новую версию Claude Code с улучшениями и исправлениями багов.

OpenClaw Radar
Встреча Министерства обороны США с Anthropic и дистилляция Claude в китайских лабораториях ИИ
Новости

Встреча Министерства обороны США с Anthropic и дистилляция Claude в китайских лабораториях ИИ

Генеральный директор Anthropic встречается с министром обороны США в ситуации, которую официальные лица описывают как «исправляйся или уходи», в то время как компания сообщает о поимке трёх китайских лабораторий ИИ, занимающихся массовым дистилляцией возможностей Claude.

OpenClawRadar