Benchmark de Esforço de Raciocínio do Opus 4.7: Médio Supera Alto e Máximo em Tarefas Reais
O usuário do Reddit ktane testou o Claude Opus 4.7 no Claude Code em cinco configurações de esforço de raciocínio (baixo, médio, alto, muito alto, máximo) em 29 tarefas reais do repositório open-source GraphQL-go-tools. O resultado: o esforço médio de raciocínio superou consistentemente as configurações mais altas em taxa de aprovação de testes, equivalência semântica com patches humanos, taxa de aprovação em revisão de código e pontuações agregadas de craft/disciplina.
Resultados Principais
- Taxa de aprovação em todas as tarefas: Médio 28/29, Máximo 27/29, Alto 26/29, Muito Alto 25/29, Baixo 23/29
- Patches equivalentes: Médio 14/29, Máximo 13/29, Alto 12/29, Muito Alto 11/29, Baixo 10/29
- Taxa de aprovação em revisão de código: Médio 10/29, Alto 7/29, Máximo 8/29, Muito Alto 4/29, Baixo 5/29
- Média da rubrica de revisão de código: Médio 2.716, Alto 2.509, Muito Alto 2.482, Máximo 2.431, Baixo 2.426
- Risco de footprint (quanto menor, melhor): Baixo 0.155, Médio 0.189, Alto 0.206, Máximo 0.227, Muito Alto 0.238
- Custo por tarefa: Baixo $2.50, Médio $3.15, Alto $5.01, Muito Alto $6.51, Máximo $8.84
- Duração por tarefa: Baixo 383.8s, Médio 450.7s, Alto 716.4s, Muito Alto 803.8s, Máximo 996.9s
- Passes equivalentes por dólar: Baixo 4.0, Médio 4.4, Alto 2.4, Muito Alto 1.7, Máximo 1.5
O autor observa que o Opus 4.7 usa pensamento adaptativo — ele já aloca orçamento de raciocínio por tarefa. O botão de esforço, portanto, influencia uma política já adaptativa, em vez de adicionar inteligência bruta. Notavelmente, em um PR (#1260), as configurações alta e muito alta desperdiçaram raciocínio extra procurando hashes de commits de PRs anteriores e concluíram que 'nenhum trabalho necessário', enquanto a média e a máxima leram corretamente o fluxo de controle e produziram uma correção.
Isso contrasta com o GPT-5.5 no Codex, que mostrou a curva monotônica intuitiva onde mais raciocínio melhorava a qualidade. O relatório interativo completo com detalhamentos por tarefa está disponível em stet.sh.
📖 Leia a fonte completa: r/ClaudeAI
👀 See Also

Lançamento do Claude Code v2.1.77: Limites de Tokens, Controles de Sandbox e Correções de Bugs
Claude Code v2.1.77 aumenta os limites padrão de tokens de saída para Claude Opus 4.6 para 64 mil tokens e adiciona uma configuração de sandbox allowRead para o sistema de arquivos. A versão inclui mais de 30 correções para problemas que vão desde gerenciamento de memória até comportamento da interface de terminal.

🚀 OpenClaw 2026.2.6 Lançado – Novos Modelos, Segurança Aprimorada e Atualizações Importantes!
OpenClaw 2026.2.6 lança recursos inovadores, incluindo novos modelos de IA e medidas de segurança aprimoradas. Explore as principais atualizações que estão moldando o futuro da automação.

Claude-Code v2.1.84 adiciona ferramenta PowerShell, variáveis de ambiente e múltiplas correções
A versão Claude-Code v2.1.84 introduz uma ferramenta PowerShell para Windows como uma prévia opcional, adiciona variáveis de ambiente para configuração de modelo e tempos limite de streaming, e inclui diversas correções de bugs e melhorias de desempenho.

inclusionAI Lança Ling-2.6-1T: Modelo de Trilhão de Parâmetros com Arquitetura Híbrida, Atenção Esparsa e Pensamento Rápido
Ling-2.6-1T é um novo modelo de código aberto com um trilhão de parâmetros que combina MLA e Atenção Linear para eficiência em contextos longos, usando Supressão de Redundância de Processo Contextual para reduzir cadeias de pensamento verbosas. Alcança SOTA de código aberto em AIME26, SWE-bench Verified, BFCL-V4, TAU2-Bench e IFBench.