Benchmark de Esforço de Raciocínio do Opus 4.7: Médio Supera Alto e Máximo em Tarefas Reais

✍️ OpenClawRadar📅 Publicado: May 13, 2026🔗 Source
Ad

O usuário do Reddit ktane testou o Claude Opus 4.7 no Claude Code em cinco configurações de esforço de raciocínio (baixo, médio, alto, muito alto, máximo) em 29 tarefas reais do repositório open-source GraphQL-go-tools. O resultado: o esforço médio de raciocínio superou consistentemente as configurações mais altas em taxa de aprovação de testes, equivalência semântica com patches humanos, taxa de aprovação em revisão de código e pontuações agregadas de craft/disciplina.

Ad

Resultados Principais

  • Taxa de aprovação em todas as tarefas: Médio 28/29, Máximo 27/29, Alto 26/29, Muito Alto 25/29, Baixo 23/29
  • Patches equivalentes: Médio 14/29, Máximo 13/29, Alto 12/29, Muito Alto 11/29, Baixo 10/29
  • Taxa de aprovação em revisão de código: Médio 10/29, Alto 7/29, Máximo 8/29, Muito Alto 4/29, Baixo 5/29
  • Média da rubrica de revisão de código: Médio 2.716, Alto 2.509, Muito Alto 2.482, Máximo 2.431, Baixo 2.426
  • Risco de footprint (quanto menor, melhor): Baixo 0.155, Médio 0.189, Alto 0.206, Máximo 0.227, Muito Alto 0.238
  • Custo por tarefa: Baixo $2.50, Médio $3.15, Alto $5.01, Muito Alto $6.51, Máximo $8.84
  • Duração por tarefa: Baixo 383.8s, Médio 450.7s, Alto 716.4s, Muito Alto 803.8s, Máximo 996.9s
  • Passes equivalentes por dólar: Baixo 4.0, Médio 4.4, Alto 2.4, Muito Alto 1.7, Máximo 1.5

O autor observa que o Opus 4.7 usa pensamento adaptativo — ele já aloca orçamento de raciocínio por tarefa. O botão de esforço, portanto, influencia uma política já adaptativa, em vez de adicionar inteligência bruta. Notavelmente, em um PR (#1260), as configurações alta e muito alta desperdiçaram raciocínio extra procurando hashes de commits de PRs anteriores e concluíram que 'nenhum trabalho necessário', enquanto a média e a máxima leram corretamente o fluxo de controle e produziram uma correção.

Isso contrasta com o GPT-5.5 no Codex, que mostrou a curva monotônica intuitiva onde mais raciocínio melhorava a qualidade. O relatório interativo completo com detalhamentos por tarefa está disponível em stet.sh.

📖 Leia a fonte completa: r/ClaudeAI

Ad

👀 See Also

Lançamento do Claude Code v2.1.77: Limites de Tokens, Controles de Sandbox e Correções de Bugs
News

Lançamento do Claude Code v2.1.77: Limites de Tokens, Controles de Sandbox e Correções de Bugs

Claude Code v2.1.77 aumenta os limites padrão de tokens de saída para Claude Opus 4.6 para 64 mil tokens e adiciona uma configuração de sandbox allowRead para o sistema de arquivos. A versão inclui mais de 30 correções para problemas que vão desde gerenciamento de memória até comportamento da interface de terminal.

OpenClawRadar
🚀 OpenClaw 2026.2.6 Lançado – Novos Modelos, Segurança Aprimorada e Atualizações Importantes!
News

🚀 OpenClaw 2026.2.6 Lançado – Novos Modelos, Segurança Aprimorada e Atualizações Importantes!

OpenClaw 2026.2.6 lança recursos inovadores, incluindo novos modelos de IA e medidas de segurança aprimoradas. Explore as principais atualizações que estão moldando o futuro da automação.

OpenClawRadar
Claude-Code v2.1.84 adiciona ferramenta PowerShell, variáveis de ambiente e múltiplas correções
News

Claude-Code v2.1.84 adiciona ferramenta PowerShell, variáveis de ambiente e múltiplas correções

A versão Claude-Code v2.1.84 introduz uma ferramenta PowerShell para Windows como uma prévia opcional, adiciona variáveis de ambiente para configuração de modelo e tempos limite de streaming, e inclui diversas correções de bugs e melhorias de desempenho.

OpenClawRadar
inclusionAI Lança Ling-2.6-1T: Modelo de Trilhão de Parâmetros com Arquitetura Híbrida, Atenção Esparsa e Pensamento Rápido
News

inclusionAI Lança Ling-2.6-1T: Modelo de Trilhão de Parâmetros com Arquitetura Híbrida, Atenção Esparsa e Pensamento Rápido

Ling-2.6-1T é um novo modelo de código aberto com um trilhão de parâmetros que combina MLA e Atenção Linear para eficiência em contextos longos, usando Supressão de Redundância de Processo Contextual para reduzir cadeias de pensamento verbosas. Alcança SOTA de código aberto em AIME26, SWE-bench Verified, BFCL-V4, TAU2-Bench e IFBench.

OpenClawRadar