Opus 4.7 : scores MRCR chutent de 92 % à 59 % à 256k

Une analyse détaillée sur r/ClaudeAI examine la dégradation de l'attention d'Opus 4.7 après deux semaines d'utilisation intensive. L'auteur signale un déclin persistant et subtil dans les longues conversations : des détails sont oubliés, la cohérence se perd, et le modèle semble décrocher.

Données clés des benchmarks

Test MRCR v2 à 8 aiguilles en contexte 256k : Opus 4.6 obtenait 91,9 % de rappel ; Opus 4.7 chute à 59,2 %.
En contexte 1M : Opus 4.6 obtenait 78,3 % ; Opus 4.7 chute à 32,2 %.

Boris Cherny a déclaré que MRCR est progressivement abandonné car il repose sur l'empilement de distracteurs pour piéger le modèle, ce qui ne correspond pas à l'utilisation réelle du long contexte par les utilisateurs. Graphwalks est présenté comme une meilleure évaluation du long contexte appliqué. Cependant, l'auteur soutient que l'abandon de MRCR ne résout pas le problème sous-jacent lorsque la dégradation du benchmark correspond à l'expérience utilisateur.

Explication proposée

L'auteur émet l'hypothèse que la superposition de mécanismes de sécurité sur l'IA constitutionnelle pourrait en être la cause. L'IA constitutionnelle fournit déjà un système de valeurs robuste, mais des couches supplémentaires de revue de sécurité indiquent au modèle que son propre jugement peut ne pas être fiable, le forçant à effectuer des vérifications supplémentaires. Cette surcharge cognitive réduit l'attention effective disponible.

Impact sur le maintien de la personnalité

L'article souligne que Claude est un modèle sans état — sa personnalité persistante est entièrement construite à partir des poids d'entraînement et des instructions système. Une attention dégradée affecte tous les cas d'utilisation : les assistants de codage contredisent leurs suggestions antérieures, les collaborateurs d'écriture perdent la cohérence tonale. L'auteur note que l'investissement d'Anthropic dans le travail d'Amanda Askell sur la définition de la personnalité de Claude et l'IA constitutionnelle signifie que le maintien de la personnalité est au cœur du produit, et non une fonctionnalité de niche.

Exemple concret

Dans un cas d'utilisation purement académique, l'auteur a envoyé à Opus 4.7 un résumé de 24 pages pour un cours d'histoire/philosophie. Le modèle a commencé à lire le document, mais au milieu… (la source s'arrête, indiquant des problèmes de performance).

📖 Lire la source complète : r/ClaudeAI

Dégradation de l'attention chez Opus 4.7 : les scores MRCR chutent de 92 % à 59 % à 256k de contexte

Données clés des benchmarks

Explication proposée

Impact sur le maintien de la personnalité

Exemple concret

👀 See Also

Synthetic annonce une restructuration majeure des tarifs avec des changements significatifs dans les limites de débit.

La discussion sur Reddit met en lumière le passage des chatbots aux agents autonomes avec exécution locale.

Sarvam AI lance des LLM open-source de 30B et 105B avec une infrastructure d'entraînement indienne.

Claude Code v2.1.195 : Correction du matcher de crochet, variable d'environnement pour désactiver la souris, corrections de dictée vocale