MiMo-V2.5-Pro vs K2.6 : Test de raisonnement social

MiMo-V2.5-Pro, le dernier modèle open-weights de Xiaomi, a été évalué dans des parties autonomes de Blood on the Clocktower — un jeu de déduction sociale complexe similaire à Loup-Garou. Le benchmark, créé par l'utilisateur Reddit cjami, confronte les modèles dans des parties complètes, mesurant le raisonnement, la tromperie et l'utilisation d'outils.

Résultats clés

Taux de victoire : 88 % en tant qu'équipe du Bien, 48 % en tant qu'équipe du Mal — globalement élevé mais déséquilibré. La performance en tant que Mal est la principale faiblesse face à Kimi K2.6.
Efficacité des jetons : 183 639 jetons de sortie par partie, similaire à Gemini 3.1 Pro. À comparer aux 580 000 jetons de Kimi K2.6 (3 fois plus long).
Coût par partie : 0,99 $ — moins de la moitié de Kimi K2.6 (2,65 $) et bien en dessous de Claude Opus 4.6 (3,76 $).
Durée des matchs : 2 à 3 heures (contre 10 à 15 heures pour Kimi K2.6 en raison d'un raisonnement verbeux).
Taux d'erreur d'appel d'outil : 0,4 % — fiable pour les flux de travail d'agents autonomes.

Performance notable

Raisonnement solide sous incertitude : exemple de réflexion du point de vue des autres vs GPT 5.5 et déductions nettes menant à une victoire.

Erreurs notables

Attendu qu'un Baron maléfique se révèle, menant à une défaite — contre Claude Opus 4.6.
Un sbire avouant son rôle — transcription.

Conclusion pratique

Pour les développeurs ayant besoin d'un modèle open-weights avec un raisonnement solide dans des contextes multi-agents ou de théorie des jeux, MiMo-V2.5-Pro offre le meilleur rapport qualité-prix parmi les modèles haut de gamme — coût réduit, inférence plus rapide et fiabilité raisonnable, bien qu'avec une marge d'amélioration dans les rôles adverses.

Retranscriptions complètes des modèles et journaux de parties : MiMo-V2.5-Pro sur Clocktower Radio. Méthodologie : Fonctionnement.

📖 Lire la source complète : r/LocalLLaMA

MiMo-V2.5-Pro évalué : Fort raisonnement de déduction sociale, bon rapport qualité-prix face au K2.6

Résultats clés

Performance notable

Erreurs notables

Conclusion pratique

👀 See Also

Claude Code v2.1.132 : Arrêt gracieux SIGINT, correctifs MCP et refonte de la gestion du terminal

Analyse : Les coûts réels de calcul d'Anthropic pour les utilisateurs de Claude Code sont bien inférieurs au chiffre de 5 000 $ annoncé.

La communauté NVIDIA DGX Spark lance Spark Arena pour des benchmarks LLM reproductibles

Le volume de code généré par l'IA submerge les ingénieurs seniors, révèle une étude.