Atualização do Ranking SWE-rebench: Resultados de fevereiro de 2026 mostram competição acirrada

✍️ OpenClawRadar📅 Publicado: March 23, 2026🔗 Source

Resultados do SWE-rebench de Fevereiro de 2026

O quadro de líderes SWE-rebench foi atualizado com as execuções de fevereiro de 2026 em 57 novas tarefas de PR do GitHub. A configuração segue a metodologia padrão do SWE-bench: os modelos leem problemas reais de PR, editam código, executam testes e devem fazer com que toda a suíte de testes passe. As tarefas são restritas a PRs criados no mês anterior.

Principais Resultados

Claude Opus 4.6 permanece no topo com taxa de resolução de 65,3%, continuando a ditar o ritmo com um forte pass@5 (~70%)
O nível superior é extremamente apertado: gpt-5.2-medium (64,4%), GLM-5 (62,8%) e gpt-5.4-medium (62,8%) estão todos a poucos pontos do líder
Gemini 3.1 Pro Preview (62,3%) e DeepSeek-V3.2 (60,9%) completam um top-6 muito disputado
Modelos de código aberto/híbridos continuam melhorando: Qwen3.5-397B (59,9%), Step-3.5-Flash (59,6%) e Qwen3-Coder-Next (54,4%) estão reduzindo a diferença, impulsionados pelo uso aprimorado de contexto longo e escalabilidade
MiniMax M2.5 (54,6%) continua se destacando como uma opção econômica com desempenho competitivo

No geral, fevereiro mostra uma fronteira altamente competitiva, com vários modelos dentro de poucos pontos da liderança.

📖 Read the full source: r/LocalLLaMA

👀 See Also

News

Serviço Claude Code Fora do Ar e Problemas de Transparência na Página de Status

O Claude Code enfrentou falhas de autenticação com chaves de API OAuth expirando diariamente e erros 500 durante a reautorização, enquanto a página de status oficial inicialmente não mostrava problemas, apesar dos usuários relatarem problemas por pelo menos 45 minutos.

Apr 16, 2026, 03:05 PM UTC

OpenClawRadar

News

A NVIDIA anuncia o NemoClaw com recursos de segurança OpenShell

A NVIDIA anunciou o NemoClaw na GTC, construído sobre o OpenClaw para adicionar segurança de nível empresarial por meio do OpenShell, que impõe proteções de privacidade e segurança baseadas em políticas para agentes de IA.

Mar 17, 2026, 09:45 AM UTC

OpenClawRadar

News

Dois novos modelos aparecem no OpenRouter, possivelmente variantes do DeepSeek V4

Dois novos modelos chamados healer-alpha e hunter-alpha apareceram no OpenRouter, com especificações correspondentes aos detalhes vazados sobre o DeepSeek V4. Testes iniciais mostram que ambos os modelos têm bom desempenho em cenários de roleplay, sem filtragem de mensagens e com geração de tokens mais rápida do que o GLM 5.0.

Apr 18, 2026, 05:45 AM UTC

OpenClawRadar

News

Ångstrom usou Claude Code para treinar um modelo que superou o UMA-OMC da Meta — 100 mil jobs de GPU em Spot

Ångstrom (YC S24) treinou o CSP-MACE-Å, um modelo de ML 10.000x mais rápido que o DFT com precisão equivalente, superando o UMA-OMC da Meta na predição de estruturas cristalinas. Eles usaram Claude Code para orquestrar 100.000 jobs GPU em instâncias spot multi-cloud via Anycloud CLI.

Jun 18, 2026, 12:16 PM UTC

OpenClawRadar