Снижение качества внимания в Opus 4.7: оценки MRCR падают с 92% до 59% при контексте 256k

✍️ OpenClawRadar📅 Опубликовано: 13 мая 2026 г.🔗 Source
Ad

Подробный анализ на r/ClaudeAI исследует ухудшение внимания Opus 4.7 после двух недель интенсивного использования. Автор сообщает о стойком, едва заметном снижении качества в длинных диалогах: детали теряются, согласованность нарушается, и модель кажется "отключающейся".

Ключевые бенчмарк-данные

  • Тест MRCR v2 с 8 иглами при контексте 256k: Opus 4.6 показал полноту 91,9%; Opus 4.7 упал до 59,2%.
  • При контексте 1M: Opus 4.6 показал 78,3%; Opus 4.7 упал до 32,2%.

Борис Черны заявил, что MRCR выводится из эксплуатации, так как он основан на нагромождении отвлекающих факторов, чтобы обмануть модель, что не отражает реальное использование длинного контекста пользователями. Graphwalks позиционируется как более релевантная оценка длинного контекста. Однако автор утверждает, что отказ от MRCR не решает основную проблему, когда ухудшение бенчмарка соответствует пользовательскому опыту.

Предполагаемое объяснение

Автор выдвигает гипотезу, что наложение механизмов безопасности поверх Constitutional AI может быть причиной. Constitutional AI уже обеспечивает надежную систему ценностей, но дополнительные уровни проверки безопасности говорят модели, что ее собственное суждение может быть ненадежным, вынуждая ее выполнять дополнительные проверки. Эта когнитивная нагрузка сужает доступное эффективное внимание.

Ad

Влияние на поддержание персоны

Статья подчеркивает, что Клод — модель без состояния: его устойчивая персона создана исключительно из весов обучения и системных инструкций. Ухудшение внимания затрагивает все сценарии использования: помощники по кодированию противоречат предыдущим предложениям, соавторы по написанию текстов теряют согласованность тона. Автор отмечает, что вложения Anthropic в работу Аманды Аскелл по определению личности Клода и Constitutional AI означают, что поддержание персоны является основой продукта, а не нишевой функцией.

Конкретный пример

В чисто академическом сценарии автор отправил Opus 4.7 24-страничное резюме для курса истории/философии. Модель начала читать документ, но на середине... (источник обрывается, указывая на проблемы с производительностью).

📖 Полный источник: r/ClaudeAI

Ad

👀 Смотрите также

Создатель OpenClaw: Благодарности Клоду, инженеру кода, несмотря на запрет подписки Anthropic
Новости

Создатель OpenClaw: Благодарности Клоду, инженеру кода, несмотря на запрет подписки Anthropic

Питер Штайнбергер, создатель клиента с открытым исходным кодом Claude Code под названием OpenClaw, публично поблагодарил Бориса Черного из Anthropic за усилия по смягчению последствий запрета Anthropic на использование сторонних клиентов на основе подписки. Черный ответил, отметив, что он отправил пул-реквесты для повышения эффективности кэширования промптов специально для OpenClaw.

OpenClawRadar
Верховный суд отказывается пересматривать дело, искусство, созданное ИИ, остаётся неохраняемым авторским правом.
Новости

Верховный суд отказывается пересматривать дело, искусство, созданное ИИ, остаётся неохраняемым авторским правом.

Верховный суд США отказался рассматривать дело о возможности копирайтинга произведений искусства, созданных искусственным интеллектом, оставив в силе решения нижестоящих судов, которые требуют «авторства человека» для защиты авторским правом. Это следует за отказом Бюро по авторским правам в 2022 году удовлетворить просьбу Стивена Тейлора зарегистрировать авторское право на изображение, созданное его алгоритмом.

OpenClawRadar
Работники Amazon придумывают имитацию работы для выполнения квот по использованию ИИ
Новости

Работники Amazon придумывают имитацию работы для выполнения квот по использованию ИИ

Чтобы соответствовать внутренним директивам по внедрению ИИ-инструментов, сотрудники Amazon придумывают задачи, завышают показатели использования и манипулируют метриками — это вскрывает порочную практику внедрения политики ИИ.

OpenClawRadar
Два исследовательских проекта ставят под сомнение имитационное обучение для веб-агентов
Новости

Два исследовательских проекта ставят под сомнение имитационное обучение для веб-агентов

Два исследовательских проекта демонстрируют ограничения обучения веб-агентов исключительно на имитации: 'Browser in the Loop' использует обучение с подкреплением с моделью на 8 миллиардов параметров для повышения успешности отправки форм, в то время как 'Concentrate or Collapse' показывает, что стандартное обучение с подкреплением не работает с диффузионными языковыми моделями, требуя оптимизации на уровне последовательностей.

OpenClawRadar