DeepSeek V3.2 Dépasse Claude Opus 4.6 sur 4 Benchmarks

Résultats des Benchmarks

Une comparaison détaillée des modèles open-source contre Claude Opus 4.6 montre des performances compétitives ou supérieures dans plusieurs catégories.

Raisonnement Général : DeepSeek V3.2

DeepSeek V3.2 se défend bien face aux modèles propriétaires, sa variante haute puissance (V3.2-Speciale) surpassant même GPT-5.

SWE-bench Verified : Claude Opus 4.6 : 80,8 %, DeepSeek V3.2 : 73,0 %
LiveCodeBench : Claude Opus 4.6 : 76, DeepSeek V3.2 : 74,1
MMLU-Pro : DeepSeek V3.2 : 85,0 %, Claude Opus 4.6 : 82,0 %

DeepSeek V3.2 offre un bon support multilingue (CJK, arabe, langues européennes), un contexte de 128K avec attention éparse, mais est moins performant en écriture créative et sur certains cas limites de sortie structurée. Inférence : ~60 tok/s en sortie, 1,18s TTFT, contexte 128K. Prêt pour la production pour 90 %+ des cas d'usage généraux. 5x moins cher que GPT-5, 20x moins cher qu'Opus 4.6.

Raisonnement : DeepSeek R1

DeepSeek R1 surpasse les modèles de raisonnement coûteux sur plusieurs benchmarks.

Humanity's Last Exam : DeepSeek R1 : 50,2 %, Claude Opus 4.6 : 40,0 %
MMLU-Pro : DeepSeek R1 : 88,9 %, Claude Opus 4.6 : 82,0 %

Inférence : ~30 tok/s en sortie, ~2s TTFT. Plus lent que les modèles non dédiés au raisonnement en raison du traitement en chaîne de pensée. Meilleur modèle de raisonnement open-source. Égalise GPT-5.2 Pro sur HLE. 30x moins cher que o1.

Agentique : Kimi K2.5

1 trillion de paramètres (32B actifs par token via MoE). Contexte 256K. Open-source sous licence MIT modifiée.

Amélioration de l'utilisation d'outils : Kimi K2.5 : +20,1 pts, Claude Opus 4.6 : +12,4 pts, GPT-5.2 : +11,0 pts
SWE-bench Verified : Claude Opus 4.6 : 80,8 %, Kimi K2.5 : 76,8 %
Humanity's Last Exam : Kimi K2.5 : 50,2 %, Claude Opus 4.6 : 40,0 %

Peut générer jusqu'à 100 sous-agents en parallèle et gérer plus de 1 500 appels d'outils sans intervention humaine. Inférence : 334 tok/s en sortie, 0,31s TTFT. Meilleur modèle pour les charges de travail d'agents autonomes. TTFT le plus rapide, meilleure utilisation d'outils, compétitif sur tous les benchmarks.

Code : MiniMax M2.5

MiniMax M2.5 est devenu l'un des meilleurs modèles de codage.

SWE-bench Verified : Claude Opus 4.6 : 80,8 %, MiniMax M2.5 : 80,2 %, GLM-5 : 77,8 %

MiniMax a publié M2.7 le 18 mars — un modèle « auto-évolutif » à 0,30 $/1,20 $ par million de tokens. 96e percentile en précision de codage, score parfait en culture générale. L'un des modèles frontaliers les moins chers disponibles. Les modèles open-source de codage égalent efficacement le meilleur modèle propriétaire.

Comparaison de Vitesse

En production, la latence compte autant que la qualité.

Vitesse de sortie (tokens/seconde) :

Kimi K2.5 Turbo : 334
Llama 3.1 8B : ~200
GLM 4.7 Flash : ~150
DeepSeek V3.2 : ~60
Claude Opus 4.6 : 46
DeepSeek R1 : ~30

Temps jusqu'au premier token (TTFT) :

Llama 3.1 8B : 0,2s
Kimi K2.5 Turbo : 0,31s
GLM 4.7 Flash : 0,51s
DeepSeek V3.2 : 1,18s

Kimi K2.5 à 334 tok/s est 7x plus rapide qu'Opus à 46 tok/s.

Vision

La vision open-source a rattrapé son retard pour le traitement de documents et l'analyse d'images standard. Llama 4 Scout, Qwen VL et d'autres gèrent bien l'extraction de documents (factures, reçus, formulaires), la compréhension de diagrammes et le raisonnement multi-images. Reste en retard sur le raisonnement spatial fin et l'écriture manuscrite non latine.

Comparaison Globale

Meilleur modèle open-source dans chaque catégorie comparé à Claude Opus 4.6 (Opus = 100 % sur chaque axe) :

Code (SWE-bench) : Open-source 80,2 % vs Opus 80,8 % — Opus gagne de 0,6 pts. Pratiquement à égalité.
Connaissances (MMLU-Pro) : Open-source 88,9 % vs Opus 82,0 % — L'open-source gagne de 6,9 pts.
Vitesse (tok/s) : Open-source 334 vs Opus 46 — L'open-source est 7,3x plus rapide.
Utilisation d'Outils (amélioration) : Open-source +20,1 pts vs Opus +12,4 pts — L'open-source gagne de 7,7 pts.

📖 Read the full source: r/LocalLLaMA