MiMo-V2.5-Pro Open Source : Performances Codage Proches Claude Opus 4.6

Xiaomi a publié la famille de modèles open-source MiMo-V2.5, dont la variante Pro offre des benchmarks de codage compétitifs par rapport à Claude Opus 4.6 et GPT-5.4.

Tests concrets

Le V2.5-Pro a réalisé un projet de compilateur de l'Université de Pékin (compilateur SysY en Rust) en 4,3 heures avec un score parfait de 233/233 — supérieur à la plupart des étudiants qui y consacrent des semaines. Sur une consigne vague comme "crée un éditeur vidéo", il a produit de manière autonome une application de bureau de 8 192 lignes avec timeline multi-pistes, découpage de clips, fondus enchaînés, mixage audio et pipeline d'exportation après 11,5 heures et 1 868 appels d'outils. Dans une tâche de conception de circuits analogiques de niveau master (LDO Flipped-Voltage-Follower en TSMC 180nm), il a itéré via la simulation ngspice et amélioré la régulation de ligne de 22× et la régulation de charge de 17× par rapport à sa propre tentative initiale.

Benchmarks vs. Claude Opus 4.6, GPT-5.4, Gemini 3.1 Pro, DeepSeek V4 Pro

SWE-Bench Pro : 57,2 (vs. 57,3 Claude, 57,7 GPT, 54,2 Gemini, 55,4 DeepSeek)
SWE-Bench Verified : 78,9 (vs. 80,8 Claude, n/a GPT, 76,2 Gemini, 80,6 DeepSeek)
Terminal-Bench 2.0 : 68,4 (vs. 65,4 Claude, 75,1 GPT, 68,5 Gemini, 67,9 DeepSeek) — devance Claude et Gemini
Claw-Eval Pass@3 : 63,8 (vs. 70,4 Claude, 60,3 GPT, 57,8 Gemini, 59,8 DeepSeek) — bat GPT et Gemini
HLE avec outils : 48,0 (vs. 53,0 Claude, 58,7 GPT, 51,4 Gemini, 48,2 DeepSeek) — à la traîne en raisonnement général
GDPVal-AA : 1581 (vs. 1606 Claude, 1674 GPT, 1317 Gemini, 1554 DeepSeek) — à la traîne derrière GPT et Claude

Sur Claw-Eval, le graphique d'efficacité des tokens de Xiaomi prétend également que V2.5-Pro (63,8) bat Claude Sonnet 4.6. Le V2.5-Pro prend en charge l'exécution de tâches soutenues sur plus de 1 000 appels d'outils avec auto-correction ; un passage de refactorisation régressive au tour 512 a été détecté et corrigé de manière autonome.

Les poids sont désormais open-source pour téléchargement et auto-hébergement.

📖 Lire la source complète : HN AI Agents

Xiaomi publie en open source MiMo-V2.5-Pro : approche les performances de Claude Opus 4.6 sur les benchmarks de codage

Tests concrets

Benchmarks vs. Claude Opus 4.6, GPT-5.4, Gemini 3.1 Pro, DeepSeek V4 Pro

👀 See Also

Le modèle MiniMax M2.7 démontre de solides performances en tant qu'agent d'intelligence artificielle pour le codage.

Des inquiétudes surgissent quant à la convivialité et à la viabilité économique d'OpenClaw.

L'Orchestrateur : Pourquoi l'intention devrait survivre au processus

Analyse approfondie de la quantification du cache KV de Qwen : PPL, divergence KL et résultats asymétriques K/V