DeepSeek V3.2 Supera Claude Opus 4.6 em 4 de 5 Benchmarks

Resultados dos Benchmarks

Uma comparação detalhada de modelos de código aberto contra o Claude Opus 4.6 mostra desempenho competitivo ou superior em várias categorias.

Raciocínio Geral: DeepSeek V3.2

O DeepSeek V3.2 se mantém firme contra modelos proprietários, com sua variante de alta computação (V3.2-Speciale) superando o GPT-5.

SWE-bench Verificado: Claude Opus 4.6: 80,8%, DeepSeek V3.2: 73,0%
LiveCodeBench: Claude Opus 4.6: 76, DeepSeek V3.2: 74,1
MMLU-Pro: DeepSeek V3.2: 85,0%, Claude Opus 4.6: 82,0%

O DeepSeek V3.2 tem forte suporte multilíngue (CJK, árabe, idiomas europeus), contexto de 128K com atenção esparsa, mas fica aquém na escrita criativa e em alguns casos extremos de saída estruturada. Inferência: ~60 tok/s de saída, 1,18s TTFT, contexto de 128K. Pronto para produção em 90%+ dos casos de uso geral. 5x mais barato que o GPT-5, 20x mais barato que o Opus 4.6.

Raciocínio: DeepSeek R1

O DeepSeek R1 supera modelos caros de raciocínio em vários benchmarks.

Exame Final da Humanidade: DeepSeek R1: 50,2%, Claude Opus 4.6: 40,0%
MMLU-Pro: DeepSeek R1: 88,9%, Claude Opus 4.6: 82,0%

Inferência: ~30 tok/s de saída, ~2s TTFT. Mais lento que modelos não especializados em raciocínio devido ao processamento de cadeia de pensamento. Melhor modelo de raciocínio de código aberto. Igual ao GPT-5.2 Pro no HLE. 30x mais barato que o o1.

Agente: Kimi K2.5

1 trilhão de parâmetros (32B ativos por token via MoE). Contexto de 256K. Código aberto sob MIT modificado.

Melhoria no uso de ferramentas: Kimi K2.5: +20,1 pts, Claude Opus 4.6: +12,4 pts, GPT-5.2: +11,0 pts
SWE-bench Verificado: Claude Opus 4.6: 80,8%, Kimi K2.5: 76,8%
Exame Final da Humanidade: Kimi K2.5: 50,2%, Claude Opus 4.6: 40,0%

Pode gerar autonomamente até 100 subagentes em paralelo e lidar com mais de 1.500 chamadas de ferramentas sem intervenção humana. Inferência: 334 tok/s de saída, 0,31s TTFT. Melhor modelo para cargas de trabalho de agentes autônomos. TTFT mais rápido, melhor uso de ferramentas, competitivo em todos os benchmarks.

Código: MiniMax M2.5

O MiniMax M2.5 se tornou um dos melhores modelos de codificação.

SWE-bench Verificado: Claude Opus 4.6: 80,8%, MiniMax M2.5: 80,2%, GLM-5: 77,8%

O MiniMax lançou o M2.7 em 18 de março — um modelo de "auto-evolução" a US$ 0,30/US$ 1,20 por milhão de tokens. Percentil 96 em precisão de codificação, pontuação perfeita em conhecimento geral. Um dos modelos de fronteira mais baratos disponíveis. Modelos de código aberto de codificação efetivamente igualam o melhor modelo proprietário.

Comparação de Velocidade

Para produção, a latência importa tanto quanto a qualidade.

Velocidade de saída (tokens/segundo):

Kimi K2.5 Turbo: 334
Llama 3.1 8B: ~200
GLM 4.7 Flash: ~150
DeepSeek V3.2: ~60
Claude Opus 4.6: 46
DeepSeek R1: ~30

Tempo para o primeiro token (TTFT):

Llama 3.1 8B: 0,2s
Kimi K2.5 Turbo: 0,31s
GLM 4.7 Flash: 0,51s
DeepSeek V3.2: 1,18s

O Kimi K2.5 a 334 tok/s é 7x mais rápido que o Opus a 46 tok/s.

Visão

A visão de código aberto alcançou o nível para processamento de documentos e análise de imagem padrão. Llama 4 Scout, Qwen VL e outros lidam bem com extração de documentos (faturas, recibos, formulários), compreensão de diagramas e raciocínio com múltiplas imagens. Ainda fica aquém no raciocínio espacial refinado e na caligrafia não latina.

Comparação Geral

Melhor modelo de código aberto em cada categoria comparado ao Claude Opus 4.6 (Opus = 100% em cada eixo):

Código (SWE-bench): Código aberto 80,2% vs Opus 80,8% — Opus vence por 0,6 pts. Basicamente empatados.
Conhecimento (MMLU-Pro): Código aberto 88,9% vs Opus 82,0% — Código aberto vence por 6,9 pts.
Velocidade (tok/s): Código aberto 334 vs Opus 46 — Código aberto é 7,3x mais rápido.
Uso de Ferramentas (melhoria): Código aberto +20,1 pts vs Opus +12,4 pts — Código aberto vence por 7,7 pts.

📖 Leia a fonte completa: r/LocalLLaMA