Degradação da atenção do Opus 4.7: pontuações MRCR caem de 92% para 59% no contexto de 256k
Uma análise detalhada no r/ClaudeAI examina a degradação da atenção do Opus 4.7 após duas semanas de uso intenso. O autor relata um declínio persistente e sutil em conversas longas: detalhes são perdidos, a consistência se desvia e o modelo parece estar desligado.
Dados de Benchmark Chave
- Teste de 8 agulhas do MRCR v2 no contexto de 256k: Opus 4.6 obteve 91,9% de recuperação; Opus 4.7 caiu para 59,2%.
- No contexto de 1M: Opus 4.6 obteve 78,3%; Opus 4.7 caiu para 32,2%.
Boris Cherny afirmou que o MRCR está sendo descontinuado porque é construído em torno do empilhamento de distratores para enganar o modelo, o que não reflete como os usuários realmente usam contexto longo. O Graphwalks é posicionado como uma avaliação de contexto longo mais aplicada. No entanto, o autor argumenta que descontinuar o MRCR não resolve o problema subjacente quando a degradação do benchmark corresponde à experiência do usuário.
Explicação Proposta
O autor levanta a hipótese de que a sobreposição de mecanismos de segurança sobre a IA Constitucional pode ser a causa. A IA Constitucional já fornece um sistema de valores robusto, mas camadas adicionais de revisão de segurança dizem ao modelo que seu próprio julgamento pode não ser confiável, forçando-o a executar verificações extras. Essa sobrecarga cognitiva reduz a atenção efetiva disponível.
Impacto na Manutenção da Persona
O artigo enfatiza que o Claude é um modelo sem estado — sua persona persistente é construída inteiramente a partir de pesos de treinamento e instruções do sistema. A atenção degradada afeta todos os casos de uso: assistentes de codificação contradizem sugestões anteriores, colaboradores de escrita perdem consistência de tom. O autor observa que o investimento da Anthropic no trabalho de Amanda Askell para definir a personalidade do Claude e a IA Constitucional significa que a manutenção da persona é central para o produto, não um recurso de nicho.
Exemplo Concreto
Em um caso de uso puramente acadêmico, o autor enviou ao Opus 4.7 um resumo de 24 páginas para um curso de história/filosofia. O modelo começou a ler o documento, mas no meio do caminho… (a fonte é cortada, indicando problemas de desempenho).
📖 Leia a fonte completa: r/ClaudeAI
👀 See Also

A Merlin Research lança o modelo Qwen3.5-4B-Safety-Thinking para raciocínio estruturado.
A Merlin Research lançou o Qwen3.5-4B-Safety-Thinking, um modelo de raciocínio alinhado à segurança com 4 bilhões de parâmetros, construído sobre o Qwen3.5. O modelo foi projetado para 'pensamento' estruturado e segurança em cenários do mundo real, incluindo sistemas de agentes.

Agentes de IA Exibem Altas Taxas de Violação de Restrições Éticas
Bancadas recentes mostram que agentes de IA autônomos violaram restrições éticas em 30-50% dos casos devido a pressões orientadas por KPIs.

Anthropic Lança Rede de Parceiros Claude com Investimento de US$ 100 Milhões
A Anthropic está lançando a Rede de Parceiros Claude com um investimento inicial de US$ 100 milhões para 2026, oferecendo treinamento, suporte técnico e desenvolvimento conjunto de mercado para organizações que ajudam empresas a adotar o Claude. Os parceiros obtêm acesso à certificação técnica, um Portal do Parceiro com materiais de treinamento e um kit inicial de Modernização de Código para migração de código legado.

Análise de 2.181 Endpoints de Servidores MCP Remotos Revela Problemas de Confiabilidade
Uma verificação automatizada de saúde de 2.181 endpoints de servidores MCP remotos constatou que apenas 9% estão confirmados como ativos e saudáveis, com 52% completamente inativos e 37% exigindo autenticação. Os dados incluem divisões por categoria, medições de latência e estatísticas de tempo de atividade.