Atualização do Ranking SWE-rebench: Resultados de fevereiro de 2026 mostram competição acirrada

✍️ OpenClawRadar📅 Publicado: March 23, 2026🔗 Source
Atualização do Ranking SWE-rebench: Resultados de fevereiro de 2026 mostram competição acirrada
Ad

Resultados do SWE-rebench de Fevereiro de 2026

O quadro de líderes SWE-rebench foi atualizado com as execuções de fevereiro de 2026 em 57 novas tarefas de PR do GitHub. A configuração segue a metodologia padrão do SWE-bench: os modelos leem problemas reais de PR, editam código, executam testes e devem fazer com que toda a suíte de testes passe. As tarefas são restritas a PRs criados no mês anterior.

Ad

Principais Resultados

  • Claude Opus 4.6 permanece no topo com taxa de resolução de 65,3%, continuando a ditar o ritmo com um forte pass@5 (~70%)
  • O nível superior é extremamente apertado: gpt-5.2-medium (64,4%), GLM-5 (62,8%) e gpt-5.4-medium (62,8%) estão todos a poucos pontos do líder
  • Gemini 3.1 Pro Preview (62,3%) e DeepSeek-V3.2 (60,9%) completam um top-6 muito disputado
  • Modelos de código aberto/híbridos continuam melhorando: Qwen3.5-397B (59,9%), Step-3.5-Flash (59,6%) e Qwen3-Coder-Next (54,4%) estão reduzindo a diferença, impulsionados pelo uso aprimorado de contexto longo e escalabilidade
  • MiniMax M2.5 (54,6%) continua se destacando como uma opção econômica com desempenho competitivo

No geral, fevereiro mostra uma fronteira altamente competitiva, com vários modelos dentro de poucos pontos da liderança.

📖 Read the full source: r/LocalLLaMA

Ad

👀 See Also

GPT 5.5 vs Claude: Relatório de Batalha de Refatoração de um Desenvolvedor
News

GPT 5.5 vs Claude: Relatório de Batalha de Refatoração de um Desenvolvedor

Um desenvolvedor usou o GPT 5.5 para planejar e o Claude para codificar uma reformulação massiva de 36 mil linhas em C. O GPT 5.5 impressionou com planos claros, mas consumiu 85% do uso em 2 horas no plano de $30.

OpenClawRadar
Discussão do OpenClaw sobre Mensagens entre Agentes de IA e Compartilhamento de Contexto
News

Discussão do OpenClaw sobre Mensagens entre Agentes de IA e Compartilhamento de Contexto

Uma discussão no Reddit explora as implicações de agentes de IA usando contexto pessoal para se comunicar com outros agentes em nome de um usuário, examinando quais informações os usuários podem se sentir confortáveis em compartilhar.

OpenClawRadar
DiLoCo Desacoplado: Treinamento Distribuído Resiliente Entre Data Centers com Baixa Largura de Banda
News

DiLoCo Desacoplado: Treinamento Distribuído Resiliente Entre Data Centers com Baixa Largura de Banda

O Decoupled DiLoCO do Google DeepMind treina LLMs em centros de dados distantes usando WAN de 2-5 Gbps, com ilhas de computação auto-recuperáveis que isolam falhas de hardware sem degradar o desempenho de ML.

OpenClawRadar
Bug do Plugin Claude Code Telegram: Notificações MCP Descartadas Silenciosamente — Solução via Polling de Arquivos e Injeção no tmux
News

Bug do Plugin Claude Code Telegram: Notificações MCP Descartadas Silenciosamente — Solução via Polling de Arquivos e Injeção no tmux

Um plugin do Telegram para o Claude Code funciona corretamente, mas as mensagens de entrada são descartadas silenciosamente porque o Claude Code ignora notificações MCP no transporte stdio. Uma solução alternativa usa polling de arquivo e tmux send-keys com latência de ~5-9s.

OpenClawRadar