Opus 4.7: MRCR падает с 92% до 59% при контексте 256k

Подробный анализ на r/ClaudeAI исследует ухудшение внимания Opus 4.7 после двух недель интенсивного использования. Автор сообщает о стойком, едва заметном снижении качества в длинных диалогах: детали теряются, согласованность нарушается, и модель кажется "отключающейся".

Ключевые бенчмарк-данные

Тест MRCR v2 с 8 иглами при контексте 256k: Opus 4.6 показал полноту 91,9%; Opus 4.7 упал до 59,2%.
При контексте 1M: Opus 4.6 показал 78,3%; Opus 4.7 упал до 32,2%.

Борис Черны заявил, что MRCR выводится из эксплуатации, так как он основан на нагромождении отвлекающих факторов, чтобы обмануть модель, что не отражает реальное использование длинного контекста пользователями. Graphwalks позиционируется как более релевантная оценка длинного контекста. Однако автор утверждает, что отказ от MRCR не решает основную проблему, когда ухудшение бенчмарка соответствует пользовательскому опыту.

Предполагаемое объяснение

Автор выдвигает гипотезу, что наложение механизмов безопасности поверх Constitutional AI может быть причиной. Constitutional AI уже обеспечивает надежную систему ценностей, но дополнительные уровни проверки безопасности говорят модели, что ее собственное суждение может быть ненадежным, вынуждая ее выполнять дополнительные проверки. Эта когнитивная нагрузка сужает доступное эффективное внимание.

Влияние на поддержание персоны

Статья подчеркивает, что Клод — модель без состояния: его устойчивая персона создана исключительно из весов обучения и системных инструкций. Ухудшение внимания затрагивает все сценарии использования: помощники по кодированию противоречат предыдущим предложениям, соавторы по написанию текстов теряют согласованность тона. Автор отмечает, что вложения Anthropic в работу Аманды Аскелл по определению личности Клода и Constitutional AI означают, что поддержание персоны является основой продукта, а не нишевой функцией.

Конкретный пример

В чисто академическом сценарии автор отправил Opus 4.7 24-страничное резюме для курса истории/философии. Модель начала читать документ, но на середине... (источник обрывается, указывая на проблемы с производительностью).

📖 Полный источник: r/ClaudeAI

Снижение качества внимания в Opus 4.7: оценки MRCR падают с 92% до 59% при контексте 256k

Ключевые бенчмарк-данные

Предполагаемое объяснение

Влияние на поддержание персоны

Конкретный пример

👀 Смотрите также

Пузырь ИИ не похож на пузырь доткомов — работники не будут проносить ИИ на работу тайком, как когда-то проносили электронные таблицы

Угроза блокировки Internet Archive ставит под угрозу сохранение истории веб-пространства.

Пользователь Reddit критикует рабочие процессы виртуальных CEO-агентов и выступает за подход, основанный на навыках.

ИИ-агенты убивают ревью кода — объяснение проблемы «принципал-агент»