Modelos de código aberto igualam ou superam o Claude Opus 4.6 em benchmarks.

Resultados dos Benchmarks
Uma comparação detalhada de modelos de código aberto contra o Claude Opus 4.6 mostra desempenho competitivo ou superior em várias categorias.
Raciocínio Geral: DeepSeek V3.2
O DeepSeek V3.2 se mantém firme contra modelos proprietários, com sua variante de alta computação (V3.2-Speciale) superando o GPT-5.
- SWE-bench Verificado: Claude Opus 4.6: 80,8%, DeepSeek V3.2: 73,0%
- LiveCodeBench: Claude Opus 4.6: 76, DeepSeek V3.2: 74,1
- MMLU-Pro: DeepSeek V3.2: 85,0%, Claude Opus 4.6: 82,0%
O DeepSeek V3.2 tem forte suporte multilíngue (CJK, árabe, idiomas europeus), contexto de 128K com atenção esparsa, mas fica aquém na escrita criativa e em alguns casos extremos de saída estruturada. Inferência: ~60 tok/s de saída, 1,18s TTFT, contexto de 128K. Pronto para produção em 90%+ dos casos de uso geral. 5x mais barato que o GPT-5, 20x mais barato que o Opus 4.6.
Raciocínio: DeepSeek R1
O DeepSeek R1 supera modelos caros de raciocínio em vários benchmarks.
- Exame Final da Humanidade: DeepSeek R1: 50,2%, Claude Opus 4.6: 40,0%
- MMLU-Pro: DeepSeek R1: 88,9%, Claude Opus 4.6: 82,0%
Inferência: ~30 tok/s de saída, ~2s TTFT. Mais lento que modelos não especializados em raciocínio devido ao processamento de cadeia de pensamento. Melhor modelo de raciocínio de código aberto. Igual ao GPT-5.2 Pro no HLE. 30x mais barato que o o1.
Agente: Kimi K2.5
1 trilhão de parâmetros (32B ativos por token via MoE). Contexto de 256K. Código aberto sob MIT modificado.
- Melhoria no uso de ferramentas: Kimi K2.5: +20,1 pts, Claude Opus 4.6: +12,4 pts, GPT-5.2: +11,0 pts
- SWE-bench Verificado: Claude Opus 4.6: 80,8%, Kimi K2.5: 76,8%
- Exame Final da Humanidade: Kimi K2.5: 50,2%, Claude Opus 4.6: 40,0%
Pode gerar autonomamente até 100 subagentes em paralelo e lidar com mais de 1.500 chamadas de ferramentas sem intervenção humana. Inferência: 334 tok/s de saída, 0,31s TTFT. Melhor modelo para cargas de trabalho de agentes autônomos. TTFT mais rápido, melhor uso de ferramentas, competitivo em todos os benchmarks.
Código: MiniMax M2.5
O MiniMax M2.5 se tornou um dos melhores modelos de codificação.
- SWE-bench Verificado: Claude Opus 4.6: 80,8%, MiniMax M2.5: 80,2%, GLM-5: 77,8%
O MiniMax lançou o M2.7 em 18 de março — um modelo de "auto-evolução" a US$ 0,30/US$ 1,20 por milhão de tokens. Percentil 96 em precisão de codificação, pontuação perfeita em conhecimento geral. Um dos modelos de fronteira mais baratos disponíveis. Modelos de código aberto de codificação efetivamente igualam o melhor modelo proprietário.
Comparação de Velocidade
Para produção, a latência importa tanto quanto a qualidade.
Velocidade de saída (tokens/segundo):
- Kimi K2.5 Turbo: 334
- Llama 3.1 8B: ~200
- GLM 4.7 Flash: ~150
- DeepSeek V3.2: ~60
- Claude Opus 4.6: 46
- DeepSeek R1: ~30
Tempo para o primeiro token (TTFT):
- Llama 3.1 8B: 0,2s
- Kimi K2.5 Turbo: 0,31s
- GLM 4.7 Flash: 0,51s
- DeepSeek V3.2: 1,18s
O Kimi K2.5 a 334 tok/s é 7x mais rápido que o Opus a 46 tok/s.
Visão
A visão de código aberto alcançou o nível para processamento de documentos e análise de imagem padrão. Llama 4 Scout, Qwen VL e outros lidam bem com extração de documentos (faturas, recibos, formulários), compreensão de diagramas e raciocínio com múltiplas imagens. Ainda fica aquém no raciocínio espacial refinado e na caligrafia não latina.
Comparação Geral
Melhor modelo de código aberto em cada categoria comparado ao Claude Opus 4.6 (Opus = 100% em cada eixo):
- Código (SWE-bench): Código aberto 80,2% vs Opus 80,8% — Opus vence por 0,6 pts. Basicamente empatados.
- Conhecimento (MMLU-Pro): Código aberto 88,9% vs Opus 82,0% — Código aberto vence por 6,9 pts.
- Velocidade (tok/s): Código aberto 334 vs Opus 46 — Código aberto é 7,3x mais rápido.
- Uso de Ferramentas (melhoria): Código aberto +20,1 pts vs Opus +12,4 pts — Código aberto vence por 7,7 pts.
📖 Leia a fonte completa: r/LocalLLaMA
👀 See Also

Claude-Code v2.1.31 Lançamento: Principais Atualizações e Correções de Bugs
Claude-Code v2.1.31 foi lançado com melhorias importantes, incluindo dicas de retomada de sessão, suporte a IME japonês e correções de bugs para manipulação de PDF e solicitações de API.

Método Baseado em Gramática Iguala ou Supera IA em Análise de Autoria
Um estudo da Universidade de Manchester descobriu que o LambdaG, um método de análise de autoria baseado em gramática, igualou ou superou os principais sistemas de IA na maioria dos conjuntos de dados de teste, oferecendo maior transparência e menor custo computacional.

Claude-Code v2.1.91 adiciona persistência de resultados MCP, controles de execução de shell e deep links multilinha
Claude-Code v2.1.91 introduz a substituição de persistência de resultados de ferramentas MCP via anotação _meta["anthropic/maxResultSizeChars"] suportando até 500 mil caracteres, adiciona a configuração disableSkillShellExecution e habilita prompts de múltiplas linhas em deep links claude-cli://open?q= com novas linhas codificadas.

Claude planeja adicionar crédito programático mensal para uso da API
Os planos do Claude da Anthropic incluirão um crédito mensal dedicado para uso programático (API), de acordo com um tweet do ClaudeDevs no X.