Xiaomi publie en open source MiMo-V2.5-Pro : approche les performances de Claude Opus 4.6 sur les benchmarks de codage

Xiaomi a publié la famille de modèles open-source MiMo-V2.5, dont la variante Pro offre des benchmarks de codage compétitifs par rapport à Claude Opus 4.6 et GPT-5.4.
Tests concrets
Le V2.5-Pro a réalisé un projet de compilateur de l'Université de Pékin (compilateur SysY en Rust) en 4,3 heures avec un score parfait de 233/233 — supérieur à la plupart des étudiants qui y consacrent des semaines. Sur une consigne vague comme "crée un éditeur vidéo", il a produit de manière autonome une application de bureau de 8 192 lignes avec timeline multi-pistes, découpage de clips, fondus enchaînés, mixage audio et pipeline d'exportation après 11,5 heures et 1 868 appels d'outils. Dans une tâche de conception de circuits analogiques de niveau master (LDO Flipped-Voltage-Follower en TSMC 180nm), il a itéré via la simulation ngspice et amélioré la régulation de ligne de 22× et la régulation de charge de 17× par rapport à sa propre tentative initiale.
Benchmarks vs. Claude Opus 4.6, GPT-5.4, Gemini 3.1 Pro, DeepSeek V4 Pro
- SWE-Bench Pro : 57,2 (vs. 57,3 Claude, 57,7 GPT, 54,2 Gemini, 55,4 DeepSeek)
- SWE-Bench Verified : 78,9 (vs. 80,8 Claude, n/a GPT, 76,2 Gemini, 80,6 DeepSeek)
- Terminal-Bench 2.0 : 68,4 (vs. 65,4 Claude, 75,1 GPT, 68,5 Gemini, 67,9 DeepSeek) — devance Claude et Gemini
- Claw-Eval Pass@3 : 63,8 (vs. 70,4 Claude, 60,3 GPT, 57,8 Gemini, 59,8 DeepSeek) — bat GPT et Gemini
- HLE avec outils : 48,0 (vs. 53,0 Claude, 58,7 GPT, 51,4 Gemini, 48,2 DeepSeek) — à la traîne en raisonnement général
- GDPVal-AA : 1581 (vs. 1606 Claude, 1674 GPT, 1317 Gemini, 1554 DeepSeek) — à la traîne derrière GPT et Claude
Sur Claw-Eval, le graphique d'efficacité des tokens de Xiaomi prétend également que V2.5-Pro (63,8) bat Claude Sonnet 4.6. Le V2.5-Pro prend en charge l'exécution de tâches soutenues sur plus de 1 000 appels d'outils avec auto-correction ; un passage de refactorisation régressive au tour 512 a été détecté et corrigé de manière autonome.
Les poids sont désormais open-source pour téléchargement et auto-hébergement.
📖 Lire la source complète : HN AI Agents
👀 See Also

L'Europe a une fenêtre de deux ans pour éviter la dépendance aux infrastructures d'IA américaines, prévient le PDG de Mistral
Le PDG de Mistral, Arthur Mensch, prévient que l'Europe a deux ans pour construire sa propre infrastructure IA — puces, énergie, calcul — ou risquer de devenir un « État vassal » permanent des géants technologiques américains.

Différences entre l'utilisation de Claude via GitHub Copilot et en tant qu'extension VS Code
Explorez les différences entre l'utilisation de Claude AI via les sessions cibles de GitHub Copilot et en tant qu'extension VS Code, en fonction de leur intégration et de leur fonctionnalité.

Microsoft Copilot injecte des publicités dans les demandes de pull de GitHub et GitLab.
Microsoft Copilot aurait injecté des publicités dans 1,5 million de demandes de tirage (pull requests) sur GitHub et affecte également GitLab. Les publicités apparaissent dans les descriptions de demandes de tirage générées par l'assistant de codage IA.

OpenClaw 5.4 ajoute les commandes /steer et /side : rediriger un agent en cours de tâche sans perdre le contexte
OpenClaw 5.4 introduit les commandes /steer et /side qui permettent de rediriger la direction actuelle d'une tâche d'un agent ou de lancer une conversation parallèle sans perdre le contexte de la session.