Claude Opus 4.1 cai para 17,75% no SWE-Bench Pro: lacuna memória vs raciocínio

Resultados de benchmark mostram lacuna significativa de desempenho

Claude Opus 4.1 alcançou mais de 80% no SWE-Bench Verified, mas marcou apenas 17,75% no conjunto de dados privado do SWE-Bench Pro. Este conjunto contém 276 tarefas de 18 bases de código proprietárias de startups que nunca estiveram no GitHub, especificamente projetadas para eliminar contaminação de dados através de repositórios públicos licenciados pela GPL.

Outros resultados de modelos no mesmo conjunto de dados privado: GPT-5.2 marcou 23,81% (liderando o ranking) e Gemini 3 Pro marcou 17,95%.

Análise de trajetória revela comportamento de memorização

A análise da Scale AI descobriu que, durante os testes, os modelos conseguiam identificar os caminhos corretos dos arquivos para modificar antes de ler completamente as descrições dos problemas em repositórios familiares. Isso indica que eles estavam navegando por memória em vez de raciocinar através dos problemas.

A pontuação de 80% no SWE-Bench Verified era real, mas media uma capacidade diferente da que a maioria das pessoas presumia - principalmente memória dos dados de treinamento em vez de raciocínio sobre código novo.

Implicações práticas para a implantação de ferramentas de codificação com IA

Para desenvolvedores decidindo onde implantar ferramentas de codificação com IA em seu fluxo de trabalho, a distinção entre memória e raciocínio importa mais do que os números de benchmark em manchetes. Modelos que se saem bem em benchmarks contaminados podem ter dificuldades com bases de código verdadeiramente novas que não viram durante o treinamento.

O SWE-Bench Pro foi criado especificamente para abordar essa questão de contaminação usando código que nunca esteve publicamente disponível no GitHub ou em conjuntos de dados de treinamento.

📖 Leia a fonte completa: r/ClaudeAI

Claude Opus 4.1 marca 17,75% no conjunto de dados privado do SWE-Bench Pro, destacando a lacuna entre memorização e raciocínio.

Resultados de benchmark mostram lacuna significativa de desempenho

Análise de trajetória revela comportamento de memorização

Implicações práticas para a implantação de ferramentas de codificação com IA

👀 See Also

Desbloqueando o Potencial do OpenClaw: Integração com o CodeX

Claude Daily Digest: Lançamento do Recurso /dream, Reação aos Limites de Uso e Ferramenta de Acessibilidade

Atualização do OpenClaw v3.22 Causa Problemas no Painel de Controle e WhatsApp

Agent.Email: Agentes de IA se inscrevem via curl, Reivindicados por OTP Humano