Opus 4.7 Raciocínio: Médio Supera Alto em Benchmarks GraphQL

O usuário do Reddit ktane testou o Claude Opus 4.7 no Claude Code em cinco configurações de esforço de raciocínio (baixo, médio, alto, muito alto, máximo) em 29 tarefas reais do repositório open-source GraphQL-go-tools. O resultado: o esforço médio de raciocínio superou consistentemente as configurações mais altas em taxa de aprovação de testes, equivalência semântica com patches humanos, taxa de aprovação em revisão de código e pontuações agregadas de craft/disciplina.

Resultados Principais

Taxa de aprovação em todas as tarefas: Médio 28/29, Máximo 27/29, Alto 26/29, Muito Alto 25/29, Baixo 23/29
Patches equivalentes: Médio 14/29, Máximo 13/29, Alto 12/29, Muito Alto 11/29, Baixo 10/29
Taxa de aprovação em revisão de código: Médio 10/29, Alto 7/29, Máximo 8/29, Muito Alto 4/29, Baixo 5/29
Média da rubrica de revisão de código: Médio 2.716, Alto 2.509, Muito Alto 2.482, Máximo 2.431, Baixo 2.426
Risco de footprint (quanto menor, melhor): Baixo 0.155, Médio 0.189, Alto 0.206, Máximo 0.227, Muito Alto 0.238
Custo por tarefa: Baixo $2.50, Médio $3.15, Alto $5.01, Muito Alto $6.51, Máximo $8.84
Duração por tarefa: Baixo 383.8s, Médio 450.7s, Alto 716.4s, Muito Alto 803.8s, Máximo 996.9s
Passes equivalentes por dólar: Baixo 4.0, Médio 4.4, Alto 2.4, Muito Alto 1.7, Máximo 1.5

O autor observa que o Opus 4.7 usa pensamento adaptativo — ele já aloca orçamento de raciocínio por tarefa. O botão de esforço, portanto, influencia uma política já adaptativa, em vez de adicionar inteligência bruta. Notavelmente, em um PR (#1260), as configurações alta e muito alta desperdiçaram raciocínio extra procurando hashes de commits de PRs anteriores e concluíram que 'nenhum trabalho necessário', enquanto a média e a máxima leram corretamente o fluxo de controle e produziram uma correção.

Isso contrasta com o GPT-5.5 no Codex, que mostrou a curva monotônica intuitiva onde mais raciocínio melhorava a qualidade. O relatório interativo completo com detalhamentos por tarefa está disponível em stet.sh.

📖 Leia a fonte completa: r/ClaudeAI

Benchmark de Esforço de Raciocínio do Opus 4.7: Médio Supera Alto e Máximo em Tarefas Reais

Resultados Principais

👀 See Also

O desenvolvedor do Claude Code reconhece falha no pensamento adaptativo e fornece solução alternativa

A pandemia do "não sei, Claude escreveu isso": quando a rendição cognitiva substitui a propriedade do código

CEO do Hospital Afirma que IA Está Pronta para Substituir Radiologistas

Relatório da Anthropic sobre a Intensidade da Adoção Global de IA