Opus 4.7: esfuerzo de razonamiento medio supera alto y máximo en tareas reales

El usuario de Reddit ktane probó Claude Opus 4.7 en Claude Code a lo largo de cinco configuraciones de esfuerzo de razonamiento (bajo, medio, alto, muy alto, máximo) en 29 tareas reales del repositorio de código abierto GraphQL-go-tools. El resultado: el esfuerzo de razonamiento medio superó consistentemente a las configuraciones más altas en tasa de aprobación de pruebas, equivalencia semántica con parches creados por humanos, tasa de aprobación de revisión de código y puntuaciones agregadas de habilidad/disciplina.

Resultados clave

Tasa de aprobación general: Medio 28/29, Máximo 27/29, Alto 26/29, Muy alto 25/29, Bajo 23/29
Parches equivalentes: Medio 14/29, Máximo 13/29, Alto 12/29, Muy alto 11/29, Bajo 10/29
Tasa de aprobación de revisión de código: Medio 10/29, Alto 7/29, Máximo 8/29, Muy alto 4/29, Bajo 5/29
Media de rúbrica de revisión de código: Medio 2.716, Alto 2.509, Muy alto 2.482, Máximo 2.431, Bajo 2.426
Riesgo de huella (menor es mejor): Bajo 0.155, Medio 0.189, Alto 0.206, Máximo 0.227, Muy alto 0.238
Costo por tarea: Bajo $2.50, Medio $3.15, Alto $5.01, Muy alto $6.51, Máximo $8.84
Duración por tarea: Bajo 383.8s, Medio 450.7s, Alto 716.4s, Muy alto 803.8s, Máximo 996.9s
Aprobaciones equivalentes por dólar: Bajo 4.0, Medio 4.4, Alto 2.4, Muy alto 1.7, Máximo 1.5

El autor señala que Opus 4.7 utiliza pensamiento adaptativo — ya asigna un presupuesto de razonamiento por tarea. Por lo tanto, el control de esfuerzo sesga una política ya adaptativa en lugar de añadir inteligencia bruta. Notablemente, en un PR (#1260), las configuraciones alta y muy alta desperdiciaron razonamiento extra investigando hashes de commits de PRs anteriores y concluyeron 'no se necesita trabajo', mientras que la media y máxima leyeron correctamente el flujo de control y produjeron una corrección.

Esto contrasta con GPT-5.5 en Codex, que mostró la curva monotónica intuitiva donde más razonamiento mejoraba la calidad. El informe interactivo completo con desgloses por tarea está disponible en stet.sh.

📖 Leer la fuente completa: r/ClaudeAI

Referencia de Opus 4.7 sobre el esfuerzo de razonamiento: el nivel medio supera al alto y al máximo en tareas reales

Resultados clave

👀 Ver también

China bloquea la adquisición de la startup de IA Manus por parte de Meta

Vendor Lock-In de IA se Intensifica: Cambiar de Modelos Ahora Cuesta Más de lo que la Mayoría Esperaba

Google proporcionará agentes de IA al Pentágono para trabajos no clasificados.

OpenClaw 2026.6.6: Incorporación a OpenRouter, Control Móvil, Correcciones de Estabilidad