Opus 4.7: MRCR cae del 92% al 59% en contexto de 256k

Un análisis detallado en r/ClaudeAI examina la degradación de la atención de Opus 4.7 tras dos semanas de uso intensivo. El autor informa de un declive persistente y sutil en conversaciones largas: se pierden detalles, la coherencia se desvía y el modelo parece estar desconectado.

Datos clave de referencia

Prueba MRCR v2 de 8 agujas en contexto de 256k: Opus 4.6 obtuvo un 91,9 % de recuperación; Opus 4.7 cayó al 59,2 %.
En contexto de 1M: Opus 4.6 obtuvo un 78,3 %; Opus 4.7 cayó al 32,2 %.

Boris Cherny afirmó que MRCR se está eliminando porque se basa en apilar distractores para engañar al modelo, lo que no refleja cómo los usuarios utilizan realmente el contexto largo. Graphwalks se presenta como una mejor evaluación de contexto largo aplicada. Sin embargo, el autor argumenta que retirar MRCR no aborda el problema subyacente cuando la degradación del punto de referencia coincide con la experiencia del usuario.

Explicación propuesta

El autor plantea la hipótesis de que la superposición de mecanismos de seguridad sobre la IA Constitucional puede ser la causa. La IA Constitucional ya proporciona un sistema de valores sólido, pero las capas adicionales de revisión de seguridad le indican al modelo que su propio juicio puede no ser fiable, obligándolo a realizar comprobaciones adicionales. Esta sobrecarga cognitiva reduce la atención efectiva disponible.

Impacto en el mantenimiento de la personalidad

El artículo enfatiza que Claude es un modelo sin estado: su personalidad persistente se construye enteramente a partir de los pesos de entrenamiento y las instrucciones del sistema. La atención degradada afecta a todos los casos de uso: los asistentes de codificación contradicen sugerencias anteriores, los colaboradores de escritura pierden consistencia tonal. El autor señala que la inversión de Anthropic en el trabajo de Amanda Askell para definir la personalidad de Claude y la IA Constitucional significa que el mantenimiento de la personalidad es fundamental para el producto, no una característica de nicho.

Ejemplo concreto

En un caso de uso puramente académico, el autor envió a Opus 4.7 un resumen de 24 páginas para un curso de historia/filosofía. El modelo comenzó a leer el documento, pero a mitad de camino… (la fuente se corta, indicando problemas de rendimiento).

📖 Leer la fuente completa: r/ClaudeAI

Degradación de atención de Opus 4.7: puntuaciones MRCR caen del 92% al 59% en contexto de 256k

Datos clave de referencia

Explicación propuesta

Impacto en el mantenimiento de la personalidad

Ejemplo concreto

👀 Ver también

Rust salvará a Linux de la IA: Greg Kroah-Hartman sobre errores en C y las garantías de seguridad de Rust

Decaimiento de Restricciones: Por qué los Agentes LLM Fallan en Código de Backend Estructurado

Automatizando las Redes Sociales con OpenClaw: Posibilidades y Discusiones

Anthropic separa el uso programático de las suscripciones a Claude: Nuevo grupo de créditos llega el 15 de junio