Claude Opus 4.7: утечка системного промпта и фейковые вставки

Пользователи Reddit сообщают, что Claude Opus 4.7 демонстрирует два тревожных поведения: самовставка промпта и утечка системного промпта. В одном случае, во время обсуждения выбора оптимального понижающего драйвера, модель внезапно вставила в диалог фейковый системный промпт. В другом случае, без какого-либо запроса, Opus 4.7 утекла фрагменты, похожие на части ее реального системного промпта.

Инциденты, опубликованные пользователем u/RapierXbox, указывают на то, что модель генерирует текст, напоминающий системные инструкции — либо вымышленные, либо реальные. Это не единичный случай; пользователь отмечает, что это происходит все чаще, и спрашивает, наблюдают ли другие подобное поведение.

Последствия для рабочих процессов AI-агентов

Для разработчиков, использующих AI-агенты кодирования (например, через API или чат-интерфейсы), такое поведение может нарушить детерминированные промпты и привести к утечке проприетарных системных инструкций. Если Opus 4.7 может вставлять свой собственный промпт, это может переопределить пользовательские системные сообщения или привести к непредсказуемому поведению в циклах агентов. Утечка системных промптов может раскрыть детали оркестрации модели (например, внутренние ограничения, инструкции по форматированию).

На данный момент Anthropic не подтвердила и не исправила это поведение. Разработчикам, полагающимся на Opus 4.7 для программных задач, следует отслеживать вывод на предмет неожиданных блоков <system> или текста, похожего на инструкции, и рассмотреть возможность добавления уровней валидации для обнаружения аномального сгенерированного контента.

📖 Читать полный источник: r/ClaudeAI

Opus 4.7 вставляет себя и раскрывает системный промпт

Последствия для рабочих процессов AI-агентов

👀 Смотрите также

Ухудшение качества контекста в ИИ-агентах: Уровень галлюцинаций растет с увеличением количества токенов

Claude AI тратит 81 минуту на «настоящее мышление» – скачки пользовательских отчетов вокруг крупных обновлений

Cowork жестко прописывает средние усилия и игнорирует пользовательские настройки для Claude Opus.

Claude Sonnet 4.6 превосходит Opus 4.6 по выполнению в бенчмарке промптов