MRCR cai de 92% para 59%: teste de 8 agulhas no Opus 4.7

Uma análise detalhada no r/ClaudeAI examina a degradação da atenção do Opus 4.7 após duas semanas de uso intenso. O autor relata um declínio persistente e sutil em conversas longas: detalhes são perdidos, a consistência se desvia e o modelo parece estar desligado.

Dados de Benchmark Chave

Teste de 8 agulhas do MRCR v2 no contexto de 256k: Opus 4.6 obteve 91,9% de recuperação; Opus 4.7 caiu para 59,2%.
No contexto de 1M: Opus 4.6 obteve 78,3%; Opus 4.7 caiu para 32,2%.

Boris Cherny afirmou que o MRCR está sendo descontinuado porque é construído em torno do empilhamento de distratores para enganar o modelo, o que não reflete como os usuários realmente usam contexto longo. O Graphwalks é posicionado como uma avaliação de contexto longo mais aplicada. No entanto, o autor argumenta que descontinuar o MRCR não resolve o problema subjacente quando a degradação do benchmark corresponde à experiência do usuário.

Explicação Proposta

O autor levanta a hipótese de que a sobreposição de mecanismos de segurança sobre a IA Constitucional pode ser a causa. A IA Constitucional já fornece um sistema de valores robusto, mas camadas adicionais de revisão de segurança dizem ao modelo que seu próprio julgamento pode não ser confiável, forçando-o a executar verificações extras. Essa sobrecarga cognitiva reduz a atenção efetiva disponível.

Impacto na Manutenção da Persona

O artigo enfatiza que o Claude é um modelo sem estado — sua persona persistente é construída inteiramente a partir de pesos de treinamento e instruções do sistema. A atenção degradada afeta todos os casos de uso: assistentes de codificação contradizem sugestões anteriores, colaboradores de escrita perdem consistência de tom. O autor observa que o investimento da Anthropic no trabalho de Amanda Askell para definir a personalidade do Claude e a IA Constitucional significa que a manutenção da persona é central para o produto, não um recurso de nicho.

Exemplo Concreto

Em um caso de uso puramente acadêmico, o autor enviou ao Opus 4.7 um resumo de 24 páginas para um curso de história/filosofia. O modelo começou a ler o documento, mas no meio do caminho… (a fonte é cortada, indicando problemas de desempenho).

📖 Leia a fonte completa: r/ClaudeAI

Degradação da atenção do Opus 4.7: pontuações MRCR caem de 92% para 59% no contexto de 256k

Dados de Benchmark Chave

Explicação Proposta

Impacto na Manutenção da Persona

Exemplo Concreto

👀 See Also

Explorando Quais Arquivos Estão Incluídos na Janela de Contexto de um Chat do Telegram

Modelos de código aberto igualam ou superam o Claude Opus 4.6 em benchmarks.

Análise do prompt de sistema forçado de ~12K tokens do Claude Code revela regras de prioridade que substituem a configuração do usuário

Caos na proibição de exportação do Mythos/Fábula da Anthropic: a Brokenomics da IA