Degradación de atención de Opus 4.7: puntuaciones MRCR caen del 92% al 59% en contexto de 256k
Un análisis detallado en r/ClaudeAI examina la degradación de la atención de Opus 4.7 tras dos semanas de uso intensivo. El autor informa de un declive persistente y sutil en conversaciones largas: se pierden detalles, la coherencia se desvía y el modelo parece estar desconectado.
Datos clave de referencia
- Prueba MRCR v2 de 8 agujas en contexto de 256k: Opus 4.6 obtuvo un 91,9 % de recuperación; Opus 4.7 cayó al 59,2 %.
- En contexto de 1M: Opus 4.6 obtuvo un 78,3 %; Opus 4.7 cayó al 32,2 %.
Boris Cherny afirmó que MRCR se está eliminando porque se basa en apilar distractores para engañar al modelo, lo que no refleja cómo los usuarios utilizan realmente el contexto largo. Graphwalks se presenta como una mejor evaluación de contexto largo aplicada. Sin embargo, el autor argumenta que retirar MRCR no aborda el problema subyacente cuando la degradación del punto de referencia coincide con la experiencia del usuario.
Explicación propuesta
El autor plantea la hipótesis de que la superposición de mecanismos de seguridad sobre la IA Constitucional puede ser la causa. La IA Constitucional ya proporciona un sistema de valores sólido, pero las capas adicionales de revisión de seguridad le indican al modelo que su propio juicio puede no ser fiable, obligándolo a realizar comprobaciones adicionales. Esta sobrecarga cognitiva reduce la atención efectiva disponible.
Impacto en el mantenimiento de la personalidad
El artículo enfatiza que Claude es un modelo sin estado: su personalidad persistente se construye enteramente a partir de los pesos de entrenamiento y las instrucciones del sistema. La atención degradada afecta a todos los casos de uso: los asistentes de codificación contradicen sugerencias anteriores, los colaboradores de escritura pierden consistencia tonal. El autor señala que la inversión de Anthropic en el trabajo de Amanda Askell para definir la personalidad de Claude y la IA Constitucional significa que el mantenimiento de la personalidad es fundamental para el producto, no una característica de nicho.
Ejemplo concreto
En un caso de uso puramente académico, el autor envió a Opus 4.7 un resumen de 24 páginas para un curso de historia/filosofía. El modelo comenzó a leer el documento, pero a mitad de camino… (la fuente se corta, indicando problemas de rendimiento).
📖 Leer la fuente completa: r/ClaudeAI
👀 Ver también

Anthropic Bloquea las Suscripciones a Claude a través de Herramientas de Terceros
Anthropic ha implementado bloqueos del lado del servidor en las suscripciones de Claude Pro/Max utilizadas a través de integraciones de OAuth de terceros, citando que se estaba aprovechando el acceso subsidiado a gran escala. El cambio de política incluye facturación de 'Uso Extra' que hace que estas integraciones no sean económicamente viables.

Detalles del Acuerdo de Copyright de Anthropic para Desarrolladores
Anthropic resolvió una demanda colectiva por derechos de autor de $1.5 mil millones por usar obras para entrenar modelos de IA. Los titulares de derechos de autor elegibles pueden reclamar $500–$3,000 por obra validada, con fecha límite del 23 de marzo de 2026.

Claude supera a Gemini, ChatGPT y Grok en un desafío de programación en Python en tiempo real.
Un desarrollador probó a Claude, Gemini, ChatGPT y Grok en un torneo de programación en tiempo real en Python, donde bots generados por IA competían para encontrar palabras en una cuadrícula de letras de 15×15. Claude ganó de manera decisiva.

Análisis de 413,000 Ejecuciones de Agentes de IA Revela lo que los Hace Tener Éxito
Un análisis de 413.278 ejecuciones de agentes de ingeniería de software de IA del conjunto de datos CoderForge-Preview muestra que las mejores prácticas de ingeniería de software humanas a menudo perjudican el rendimiento de los agentes. Los datos revelan patrones específicos que separan las ejecuciones exitosas de las fallidas en los mismos problemas.