MiMo-V2.5-Pro évalué : Fort raisonnement de déduction sociale, bon rapport qualité-prix face au K2.6

✍️ OpenClawRadar📅 Publié: May 1, 2026🔗 Source
MiMo-V2.5-Pro évalué : Fort raisonnement de déduction sociale, bon rapport qualité-prix face au K2.6
Ad

MiMo-V2.5-Pro, le dernier modèle open-weights de Xiaomi, a été évalué dans des parties autonomes de Blood on the Clocktower — un jeu de déduction sociale complexe similaire à Loup-Garou. Le benchmark, créé par l'utilisateur Reddit cjami, confronte les modèles dans des parties complètes, mesurant le raisonnement, la tromperie et l'utilisation d'outils.

Résultats clés

  • Taux de victoire : 88 % en tant qu'équipe du Bien, 48 % en tant qu'équipe du Mal — globalement élevé mais déséquilibré. La performance en tant que Mal est la principale faiblesse face à Kimi K2.6.
  • Efficacité des jetons : 183 639 jetons de sortie par partie, similaire à Gemini 3.1 Pro. À comparer aux 580 000 jetons de Kimi K2.6 (3 fois plus long).
  • Coût par partie : 0,99 $ — moins de la moitié de Kimi K2.6 (2,65 $) et bien en dessous de Claude Opus 4.6 (3,76 $).
  • Durée des matchs : 2 à 3 heures (contre 10 à 15 heures pour Kimi K2.6 en raison d'un raisonnement verbeux).
  • Taux d'erreur d'appel d'outil : 0,4 % — fiable pour les flux de travail d'agents autonomes.

Performance notable

Raisonnement solide sous incertitude : exemple de réflexion du point de vue des autres vs GPT 5.5 et déductions nettes menant à une victoire.

Ad

Erreurs notables

Conclusion pratique

Pour les développeurs ayant besoin d'un modèle open-weights avec un raisonnement solide dans des contextes multi-agents ou de théorie des jeux, MiMo-V2.5-Pro offre le meilleur rapport qualité-prix parmi les modèles haut de gamme — coût réduit, inférence plus rapide et fiabilité raisonnable, bien qu'avec une marge d'amélioration dans les rôles adverses.

Retranscriptions complètes des modèles et journaux de parties : MiMo-V2.5-Pro sur Clocktower Radio. Méthodologie : Fonctionnement.

📖 Lire la source complète : r/LocalLLaMA

Ad

👀 See Also

Claude MAX Plan Inclut Désormais une Fenêtre de Contexte de 1 Million de Tokens Sans Frais Supplémentaires
News

Claude MAX Plan Inclut Désormais une Fenêtre de Contexte de 1 Million de Tokens Sans Frais Supplémentaires

Le plan Claude MAX a été automatiquement mis à niveau pour inclure une fenêtre de contexte d'un million de tokens sans frais d'utilisation API supplémentaires, les utilisateurs signalant une réduction significative de l'utilisation des tokens et l'élimination de la surcharge de gestion de la fenêtre de contexte.

OpenClawRadar
Claude Sonnet 4.6 Dévoilé : Capacités Améliorées en Codage et Utilisation Informatique
News

Claude Sonnet 4.6 Dévoilé : Capacités Améliorées en Codage et Utilisation Informatique

Claude Sonnet 4.6 introduit une fenêtre de contexte de 1 million de tokens et améliore les compétences en programmation et en utilisation informatique, ce qui en fait une alternative solide aux modèles de classe Opus pour une plus large gamme de tâches.

OpenClawRadar
Claude-Code v2.1.32 : Amélioration de l'automatisation et de la précision du codage
News

Claude-Code v2.1.32 : Amélioration de l'automatisation et de la précision du codage

La dernière version de Claude-Code, v2.1.32, apporte des améliorations déterminantes en matière de codage IA et d'automatisation. Découvrez les fonctionnalités clés et l'impact communautaire de cette mise à niveau désormais disponible sur GitHub.

OpenClawRadar
Claude AI passe 81 minutes sur une « vraie réflexion » – Les rapports d'utilisateurs augmentent lors des mises à jour majeures
News

Claude AI passe 81 minutes sur une « vraie réflexion » – Les rapports d'utilisateurs augmentent lors des mises à jour majeures

Un utilisateur rapporte que Claude AI a passé 1 heure 21 minutes sur une tâche simple, spéculant que les pics de performance surviennent brièvement après les mises à jour majeures. Exemple : une demande de recherche a scanné 5 113 sources en une session, mais plus tard seulement 100-200 sources pour des requêtes similaires.

OpenClawRadar