Les modèles open source égalent ou surpassent Claude Opus 4.6 sur les benchmarks.

✍️ OpenClawRadar📅 Publié: March 19, 2026🔗 Source
Les modèles open source égalent ou surpassent Claude Opus 4.6 sur les benchmarks.
Ad
Ad

Résultats des Benchmarks

Une comparaison détaillée des modèles open-source contre Claude Opus 4.6 montre des performances compétitives ou supérieures dans plusieurs catégories.

Raisonnement Général : DeepSeek V3.2

DeepSeek V3.2 se défend bien face aux modèles propriétaires, sa variante haute puissance (V3.2-Speciale) surpassant même GPT-5.

  • SWE-bench Verified : Claude Opus 4.6 : 80,8 %, DeepSeek V3.2 : 73,0 %
  • LiveCodeBench : Claude Opus 4.6 : 76, DeepSeek V3.2 : 74,1
  • MMLU-Pro : DeepSeek V3.2 : 85,0 %, Claude Opus 4.6 : 82,0 %

DeepSeek V3.2 offre un bon support multilingue (CJK, arabe, langues européennes), un contexte de 128K avec attention éparse, mais est moins performant en écriture créative et sur certains cas limites de sortie structurée. Inférence : ~60 tok/s en sortie, 1,18s TTFT, contexte 128K. Prêt pour la production pour 90 %+ des cas d'usage généraux. 5x moins cher que GPT-5, 20x moins cher qu'Opus 4.6.

Raisonnement : DeepSeek R1

DeepSeek R1 surpasse les modèles de raisonnement coûteux sur plusieurs benchmarks.

  • Humanity's Last Exam : DeepSeek R1 : 50,2 %, Claude Opus 4.6 : 40,0 %
  • MMLU-Pro : DeepSeek R1 : 88,9 %, Claude Opus 4.6 : 82,0 %

Inférence : ~30 tok/s en sortie, ~2s TTFT. Plus lent que les modèles non dédiés au raisonnement en raison du traitement en chaîne de pensée. Meilleur modèle de raisonnement open-source. Égalise GPT-5.2 Pro sur HLE. 30x moins cher que o1.

Agentique : Kimi K2.5

1 trillion de paramètres (32B actifs par token via MoE). Contexte 256K. Open-source sous licence MIT modifiée.

  • Amélioration de l'utilisation d'outils : Kimi K2.5 : +20,1 pts, Claude Opus 4.6 : +12,4 pts, GPT-5.2 : +11,0 pts
  • SWE-bench Verified : Claude Opus 4.6 : 80,8 %, Kimi K2.5 : 76,8 %
  • Humanity's Last Exam : Kimi K2.5 : 50,2 %, Claude Opus 4.6 : 40,0 %

Peut générer jusqu'à 100 sous-agents en parallèle et gérer plus de 1 500 appels d'outils sans intervention humaine. Inférence : 334 tok/s en sortie, 0,31s TTFT. Meilleur modèle pour les charges de travail d'agents autonomes. TTFT le plus rapide, meilleure utilisation d'outils, compétitif sur tous les benchmarks.

Code : MiniMax M2.5

MiniMax M2.5 est devenu l'un des meilleurs modèles de codage.

  • SWE-bench Verified : Claude Opus 4.6 : 80,8 %, MiniMax M2.5 : 80,2 %, GLM-5 : 77,8 %

MiniMax a publié M2.7 le 18 mars — un modèle « auto-évolutif » à 0,30 $/1,20 $ par million de tokens. 96e percentile en précision de codage, score parfait en culture générale. L'un des modèles frontaliers les moins chers disponibles. Les modèles open-source de codage égalent efficacement le meilleur modèle propriétaire.

Comparaison de Vitesse

En production, la latence compte autant que la qualité.

Vitesse de sortie (tokens/seconde) :

  • Kimi K2.5 Turbo : 334
  • Llama 3.1 8B : ~200
  • GLM 4.7 Flash : ~150
  • DeepSeek V3.2 : ~60
  • Claude Opus 4.6 : 46
  • DeepSeek R1 : ~30

Temps jusqu'au premier token (TTFT) :

  • Llama 3.1 8B : 0,2s
  • Kimi K2.5 Turbo : 0,31s
  • GLM 4.7 Flash : 0,51s
  • DeepSeek V3.2 : 1,18s

Kimi K2.5 à 334 tok/s est 7x plus rapide qu'Opus à 46 tok/s.

Vision

La vision open-source a rattrapé son retard pour le traitement de documents et l'analyse d'images standard. Llama 4 Scout, Qwen VL et d'autres gèrent bien l'extraction de documents (factures, reçus, formulaires), la compréhension de diagrammes et le raisonnement multi-images. Reste en retard sur le raisonnement spatial fin et l'écriture manuscrite non latine.

Comparaison Globale

Meilleur modèle open-source dans chaque catégorie comparé à Claude Opus 4.6 (Opus = 100 % sur chaque axe) :

  • Code (SWE-bench) : Open-source 80,2 % vs Opus 80,8 % — Opus gagne de 0,6 pts. Pratiquement à égalité.
  • Connaissances (MMLU-Pro) : Open-source 88,9 % vs Opus 82,0 % — L'open-source gagne de 6,9 pts.
  • Vitesse (tok/s) : Open-source 334 vs Opus 46 — L'open-source est 7,3x plus rapide.
  • Utilisation d'Outils (amélioration) : Open-source +20,1 pts vs Opus +12,4 pts — L'open-source gagne de 7,7 pts.

📖 Read the full source: r/LocalLLaMA

Ad

👀 See Also

Claude-Code v2.1.105 Sortie : Améliorations des Worktrees, Moniteurs de Plugins et Corrections de l'Interface
News

Claude-Code v2.1.105 Sortie : Améliorations des Worktrees, Moniteurs de Plugins et Corrections de l'Interface

Claude-Code v2.1.105 ajoute un paramètre de chemin à l'outil EnterWorktree pour basculer vers des arbres de travail existants, introduit la prise en charge de moniteurs en arrière-plan pour les plugins via une clé de manifeste monitors, et corrige plus de 30 problèmes incluant des problèmes d'affichage de l'interface utilisateur, la gestion des serveurs MCP et la compatibilité du terminal.

OpenClawRadar
Claude Opus 4.6 bloque le flux de travail de la compétition Kaggle pour la revue de code
News

Claude Opus 4.6 bloque le flux de travail de la compétition Kaggle pour la revue de code

Un développeur signale que Claude Opus 4.6 bloque désormais des flux de travail légitimes liés aux compétitions Kaggle, où Claude vérifie les traces de raisonnement pour la validation des données d'entraînement SFT. L'utilisateur travaillait sur le NVIDIA Nemotron Reasoning Challenge lorsque les filtres de sécurité ont signalé des exemples de chiffrement par substitution.

OpenClawRadar
OpenClaw : Plongez dans le premier AMA sur r/clawdbot
News

OpenClaw : Plongez dans le premier AMA sur r/clawdbot

Lors d'une passionnante session AMA, l'équipe d'OpenClaw a discuté de l'avenir des agents d'IA pour le codage sur le subreddit r/clawdbot de Reddit. Découvrez les principaux enseignements et points clés de cet événement interactif.

OpenClawRadar
Merlin Research publie le modèle Qwen3.5-4B-Safety-Thinking pour le raisonnement structuré.
News

Merlin Research publie le modèle Qwen3.5-4B-Safety-Thinking pour le raisonnement structuré.

Merlin Research a dévoilé Qwen3.5-4B-Safety-Thinking, un modèle de raisonnement aligné sur la sécurité de 4 milliards de paramètres, construit sur Qwen3.5. Ce modèle est conçu pour un 'raisonnement' structuré et la sécurité dans des scénarios réels, notamment les systèmes d'agents.

OpenClawRadar