Opus 4.6 vs MiMo-V2-Pro vs GLM-5 : Test sur OpenClaw

Configuration et méthodologie de test

Un développeur a réalisé des tests en conditions réelles comparant trois modèles d'IA : Opus 4.6, MiMo-V2-Pro et GLM-5. La configuration utilisait OpenClaw + Telegram + nœud Mac + Chrome CDP (automatisation de navigateur), avec tous les modèles fonctionnant sur la même infrastructure avec les mêmes outils.

Résultats des tests par catégorie

Test 1 : Traduction d'idiomes turcs

La tâche consistait à traduire la phrase turque "Adam çok pişkin, yüzüne bakılmaz ama işini bilir." avec ses idiomes culturels en anglais.

Opus : A parfaitement traduit les deux idiomes, a expliqué le contexte culturel. Note : 9/10
MiMo : A correctement traduit "pişkin" mais a mal traduit "yüzüne bakılmaz" par "can't stand looking at him" — proche mais pas exact. Note : 6/10
GLM-5 : A traduit "yüzüne bakılmaz" par "not exactly trustworthy" — complètement à côté. Note : 5/10

Test 2 : Programmation Python (vérificateur de liens markdown)

Tâche : Créer une fonction Python qui extrait tous les liens d'un fichier markdown, vérifie le statut HTTP et signale ceux qui sont cassés.

Opus : Code propre, parallèle, support des URL brutes, déduplication. Mais pas de fallback HEAD ni d'User-Agent. Note : 8/10
MiMo : Fallback HEAD→GET, en-tête User-Agent, mode stream. Le code le plus prêt pour la production venait de MiMo. Note : 9/10
GLM-5 : Fonctionne mais manque des cas limites. Note : 7.5/10

MiMo a surpassé Opus en programmation, ce qui a surpris le testeur.

Test 3 : Raisonnement spatial

Question : "A est derrière B, B est derrière C, C fait face à la porte. Est-ce que A peut voir la porte ?" Les trois modèles ont répondu correctement. Note : 10/10 chacun.

Test 4 : Cohérence de contexte long

On leur a donné un résumé de conversation long et posé 7 questions détaillées sur des faits spécifiques.

Opus : 67/70 — le plus cohérent, pas d'hallucination
MiMo : 64/70 — a répondu "non mentionné dans le texte" quand il n'était pas sûr au lieu d'inventer
GLM-5 : 64/70 — mais a halluciné une correction incorrecte sur une réponse

Test 5 : Automatisation de navigateur

MiMo a dû rechercher dans Gmail via Chrome CDP, lire un email et résumer un fil de discussion X. A également ouvert 3 onglets et lu tous les titres. A tout accompli avec succès.

Comparaison des coûts

Tous ces tests + navigation + conversations ont coûté 44 cents au total sur MiMo. La même charge de travail sur l'API Opus coûterait environ 8-10 dollars. C'est une différence de prix de 20 fois.

Impressions générales

Opus reste le numéro 1 globalement, surtout pour la nuance des langues non anglaises et la cohérence de contexte long
MiMo a surpassé Opus en programmation, coûte 1/10ème du prix, bonne résistance aux hallucinations
GLM-5 est étonnamment proche des deux (coûtant ~70$/3 mois)
MiMo a géré l'automatisation de navigateur sans problème

Le testeur ne va pas abandonner Opus — MiMo n'a pas d'abonnement forfaitaire et reste faible sur la compréhension des langues non anglaises. Mais le fait qu'il ait surpassé GLM-5 et rivalisé avec Opus en programmation est impressionnant.

📖 Read the full source: r/openclaw