Referencia de Opus 4.7 sobre el esfuerzo de razonamiento: el nivel medio supera al alto y al máximo en tareas reales

✍️ OpenClawRadar📅 Publicado: 13 de mayo de 2026🔗 Source
Ad

El usuario de Reddit ktane probó Claude Opus 4.7 en Claude Code a lo largo de cinco configuraciones de esfuerzo de razonamiento (bajo, medio, alto, muy alto, máximo) en 29 tareas reales del repositorio de código abierto GraphQL-go-tools. El resultado: el esfuerzo de razonamiento medio superó consistentemente a las configuraciones más altas en tasa de aprobación de pruebas, equivalencia semántica con parches creados por humanos, tasa de aprobación de revisión de código y puntuaciones agregadas de habilidad/disciplina.

Ad

Resultados clave

  • Tasa de aprobación general: Medio 28/29, Máximo 27/29, Alto 26/29, Muy alto 25/29, Bajo 23/29
  • Parches equivalentes: Medio 14/29, Máximo 13/29, Alto 12/29, Muy alto 11/29, Bajo 10/29
  • Tasa de aprobación de revisión de código: Medio 10/29, Alto 7/29, Máximo 8/29, Muy alto 4/29, Bajo 5/29
  • Media de rúbrica de revisión de código: Medio 2.716, Alto 2.509, Muy alto 2.482, Máximo 2.431, Bajo 2.426
  • Riesgo de huella (menor es mejor): Bajo 0.155, Medio 0.189, Alto 0.206, Máximo 0.227, Muy alto 0.238
  • Costo por tarea: Bajo $2.50, Medio $3.15, Alto $5.01, Muy alto $6.51, Máximo $8.84
  • Duración por tarea: Bajo 383.8s, Medio 450.7s, Alto 716.4s, Muy alto 803.8s, Máximo 996.9s
  • Aprobaciones equivalentes por dólar: Bajo 4.0, Medio 4.4, Alto 2.4, Muy alto 1.7, Máximo 1.5

El autor señala que Opus 4.7 utiliza pensamiento adaptativo — ya asigna un presupuesto de razonamiento por tarea. Por lo tanto, el control de esfuerzo sesga una política ya adaptativa en lugar de añadir inteligencia bruta. Notablemente, en un PR (#1260), las configuraciones alta y muy alta desperdiciaron razonamiento extra investigando hashes de commits de PRs anteriores y concluyeron 'no se necesita trabajo', mientras que la media y máxima leyeron correctamente el flujo de control y produjeron una corrección.

Esto contrasta con GPT-5.5 en Codex, que mostró la curva monotónica intuitiva donde más razonamiento mejoraba la calidad. El informe interactivo completo con desgloses por tarea está disponible en stet.sh.

📖 Leer la fuente completa: r/ClaudeAI

Ad

👀 Ver también

DeepSeek rechaza a Alibaba: ronda de financiación de $50B prioriza la independencia sobre la integración con grandes tecnológicas
Noticias

DeepSeek rechaza a Alibaba: ronda de financiación de $50B prioriza la independencia sobre la integración con grandes tecnológicas

La ronda de financiamiento de $50 mil millones de DeepSeek colapsa con Alibaba debido a demandas de integración; el fundador Liang Wenfeng insiste en no tener cláusulas restrictivas, evaluando ofertas de Tencent y fondos respaldados por el estado.

OpenClawRadar
Resultados de Evaluación de los Modelos Qwen3.5 con Contexto de 2K a 400K en RTX 4090
Noticias

Resultados de Evaluación de los Modelos Qwen3.5 con Contexto de 2K a 400K en RTX 4090

Un desarrollador probó múltiples variantes del modelo Qwen3.5 en una RTX 4090, midiendo el rendimiento en ventanas de contexto desde 2,048 hasta 400,000 tokens. Los puntos de referencia incluyen métricas de tiempo hasta el primer token y revelan problemas con algunos modelos que requieren pruebas de descarga KV.

OpenClawRadar
Agente de IA Dirige Tienda Minorista Física con Empleados Humanos
Noticias

Agente de IA Dirige Tienda Minorista Física con Empleados Humanos

Andon Labs desplegó una IA llamada Luna para gestionar un contrato de arrendamiento minorista de 3 años en San Francisco. Luna contrató empleados humanos, gestionó contratistas y tomó todas las decisiones operativas para Andon Market.

OpenClawRadar
Atlassian Anuncia 1,600 Despidos como Parte de su Transición hacia la IA
Noticias

Atlassian Anuncia 1,600 Despidos como Parte de su Transición hacia la IA

Atlassian planea reducir aproximadamente 1,600 puestos de trabajo mientras la empresa cambia su enfoque hacia el desarrollo de IA, según un informe de Reuters compartido en Hacker News.

OpenClawRadar