Claude Opus 4.1 marca 17,75% no conjunto de dados privado do SWE-Bench Pro, destacando a lacuna entre memorização e raciocínio.

Resultados de benchmark mostram lacuna significativa de desempenho
Claude Opus 4.1 alcançou mais de 80% no SWE-Bench Verified, mas marcou apenas 17,75% no conjunto de dados privado do SWE-Bench Pro. Este conjunto contém 276 tarefas de 18 bases de código proprietárias de startups que nunca estiveram no GitHub, especificamente projetadas para eliminar contaminação de dados através de repositórios públicos licenciados pela GPL.
Outros resultados de modelos no mesmo conjunto de dados privado: GPT-5.2 marcou 23,81% (liderando o ranking) e Gemini 3 Pro marcou 17,95%.
Análise de trajetória revela comportamento de memorização
A análise da Scale AI descobriu que, durante os testes, os modelos conseguiam identificar os caminhos corretos dos arquivos para modificar antes de ler completamente as descrições dos problemas em repositórios familiares. Isso indica que eles estavam navegando por memória em vez de raciocinar através dos problemas.
A pontuação de 80% no SWE-Bench Verified era real, mas media uma capacidade diferente da que a maioria das pessoas presumia - principalmente memória dos dados de treinamento em vez de raciocínio sobre código novo.
Implicações práticas para a implantação de ferramentas de codificação com IA
Para desenvolvedores decidindo onde implantar ferramentas de codificação com IA em seu fluxo de trabalho, a distinção entre memória e raciocínio importa mais do que os números de benchmark em manchetes. Modelos que se saem bem em benchmarks contaminados podem ter dificuldades com bases de código verdadeiramente novas que não viram durante o treinamento.
O SWE-Bench Pro foi criado especificamente para abordar essa questão de contaminação usando código que nunca esteve publicamente disponível no GitHub ou em conjuntos de dados de treinamento.
📖 Leia a fonte completa: r/ClaudeAI
👀 See Also

A Gestão de Contexto do OpenClaw é Criticada por ser Consumidora de Tokens e com Falhas Arquitetônicas
Uma postagem no Reddit critica o OpenClaw por seu gerenciamento ineficiente de contexto, que leva ao uso excessivo de tokens. O framework anexa todas as ações ao histórico global, criando prompts inchados que sobrecarregam modelos menores e forçam a dependência de modelos de fronteira caros, como o Claude Opus.

Por que o OpenClaw Está Queimando Tokens Tão Rápido? Explorando o Fenômeno
OpenClaw, um dos principais agentes de IA para programação, está supostamente queimando tokens a uma taxa sem precedentes. Investigamos o que isso significa para seus usuários e as possíveis razões por trás desse fenômeno.

SubQ: Primeiro LLM Totalmente Subquadrático com Contexto de 12M Tokens e 95% de Precisão no RULER
Subquadratic lança SubQ 1M-Preview, um LLM subquadrático com escalonamento linear de computação, contexto de 12M de tokens, atenção esparsa 52× mais rápida que FlashAttention e 95% no RULER 128K. Disponível via API, agente de código CLI (SubQ Code) e ferramenta de busca (SubQ Search).

Claude Opus 4.6 esforço=baixo parâmetro causa comportamento de agente preguiçoso
Ao usar effort=low com o Claude Opus 4.6, os agentes fizeram menos chamadas de ferramentas, foram menos minuciosos na verificação cruzada e ignoraram partes dos prompts do sistema sobre pesquisa na web. Mudar para effort=medium resolveu os problemas.