Atualização do Ranking SWE-rebench: Resultados de fevereiro de 2026 mostram competição acirrada

Resultados do SWE-rebench de Fevereiro de 2026
O quadro de líderes SWE-rebench foi atualizado com as execuções de fevereiro de 2026 em 57 novas tarefas de PR do GitHub. A configuração segue a metodologia padrão do SWE-bench: os modelos leem problemas reais de PR, editam código, executam testes e devem fazer com que toda a suíte de testes passe. As tarefas são restritas a PRs criados no mês anterior.
Principais Resultados
- Claude Opus 4.6 permanece no topo com taxa de resolução de 65,3%, continuando a ditar o ritmo com um forte pass@5 (~70%)
- O nível superior é extremamente apertado: gpt-5.2-medium (64,4%), GLM-5 (62,8%) e gpt-5.4-medium (62,8%) estão todos a poucos pontos do líder
- Gemini 3.1 Pro Preview (62,3%) e DeepSeek-V3.2 (60,9%) completam um top-6 muito disputado
- Modelos de código aberto/híbridos continuam melhorando: Qwen3.5-397B (59,9%), Step-3.5-Flash (59,6%) e Qwen3-Coder-Next (54,4%) estão reduzindo a diferença, impulsionados pelo uso aprimorado de contexto longo e escalabilidade
- MiniMax M2.5 (54,6%) continua se destacando como uma opção econômica com desempenho competitivo
No geral, fevereiro mostra uma fronteira altamente competitiva, com vários modelos dentro de poucos pontos da liderança.
📖 Read the full source: r/LocalLLaMA
👀 See Also

GPT 5.5 vs Claude: Relatório de Batalha de Refatoração de um Desenvolvedor
Um desenvolvedor usou o GPT 5.5 para planejar e o Claude para codificar uma reformulação massiva de 36 mil linhas em C. O GPT 5.5 impressionou com planos claros, mas consumiu 85% do uso em 2 horas no plano de $30.

Discussão do OpenClaw sobre Mensagens entre Agentes de IA e Compartilhamento de Contexto
Uma discussão no Reddit explora as implicações de agentes de IA usando contexto pessoal para se comunicar com outros agentes em nome de um usuário, examinando quais informações os usuários podem se sentir confortáveis em compartilhar.

DiLoCo Desacoplado: Treinamento Distribuído Resiliente Entre Data Centers com Baixa Largura de Banda
O Decoupled DiLoCO do Google DeepMind treina LLMs em centros de dados distantes usando WAN de 2-5 Gbps, com ilhas de computação auto-recuperáveis que isolam falhas de hardware sem degradar o desempenho de ML.

Bug do Plugin Claude Code Telegram: Notificações MCP Descartadas Silenciosamente — Solução via Polling de Arquivos e Injeção no tmux
Um plugin do Telegram para o Claude Code funciona corretamente, mas as mensagens de entrada são descartadas silenciosamente porque o Claude Code ignora notificações MCP no transporte stdio. Uma solução alternativa usa polling de arquivo e tmux send-keys com latência de ~5-9s.