Codex 5.3 vs GLM 4.7 & 5 : Performances OpenClaw

Classement des performances des modèles pour OpenClaw

Un développeur a testé plusieurs modèles d'IA avec OpenClaw et a partagé des observations détaillées sur leurs performances. Les tests ont couvert les modèles Codex, Google, Sonnet, Gemini, DeepSeek et GLM de Z.ai, en se concentrant sur l'expérience d'utilisation pratique plutôt que sur des benchmarks.

Modèles les plus performants

Codex 5.3 - Noté 9/10. Le modèle préféré du développeur, probablement affiné pour OpenClaw avec des fonctionnalités d'agent de chat améliorées. Il comprend bien l'intention de l'utilisateur, fournit une sortie souhaitée de manière cohérente et présente des interruptions et des bogues minimes.
Sonnet 4.6 - Noté 8/10. Deuxième favori en raison de sa vitesse et de sa capacité à résoudre les problèmes. Offre une expérience suffisante lorsque Codex 5.3 n'est pas disponible, adapté à un usage quotidien.
DeepSeek 3.2 Agent - Noté 7/10. Clairement personnalisé pour OpenClaw, donne l'impression de travailler avec un agent natif. Moins performant en codage que Sonnet, Opus ou Codex, mais une alternative solide pour un usage quotidien. Les frais d'API sont notés comme potentiellement élevés pour une alternative chinoise.

Modèles de niveau intermédiaire

Google 3.1 Pro (Low et High) - Noté 6/10. Testé avec l'authentification antigravity. Interaction faible avec OpenClaw, performances lentes, pas convaincant pour une utilisation constante. Ne serait considéré que si Sonnet et Codex n'étaient pas disponibles.

Performances décevantes

GLM 4.7 - Noté 5/10. Commercialisé comme une alternative à Sonnet avec des frais d'API bon marché et un quota 3 à 4 fois supérieur à celui de Codex sur les comptes pro. Cependant, il se bloque constamment, répond tardivement et produit une longueur de sortie incohérente même sur des tâches simples comme la vérification des e-mails. A consommé 1 million de tokens dans une nouvelle session juste pour vérifier 5 e-mails.
GLM 5 - Noté 5/10. Les benchmarks prétendent qu'il rivalise avec Opus et Codex 5.3, mais l'expérience OpenClaw ne correspond pas. Utilise 2 à 3 fois plus de tokens pour les mêmes tâches, répond tardivement et fournit des réponses de codage au niveau de Sonnet 4.5. Nécessite une optimisation spécifique pour OpenClaw. Le principal avantage est le prix.
Gemini 3 Flash - Noté 4/10. Seulement adapté à des tâches très simples, non recommandé pour une utilisation sérieuse.

Le développeur a noté que choisir le bon modèle est difficile en raison de différences évidentes dans l'expérience, peut-être dues au fait qu'OpenClaw n'est pas optimisé ou à des problèmes de qualité des modèles. Il a exprimé sa déception concernant les modèles GLM malgré son souhait de se diversifier au-delà de Codex, espérant des corrections futures.

📖 Read the full source: r/openclaw

Examen des performances du modèle OpenClaw : Codex 5.3 en tête, les modèles GLM déçoivent

Classement des performances des modèles pour OpenClaw

Modèles les plus performants

Modèles de niveau intermédiaire

Performances décevantes

👀 See Also

quorum : l'outil de gouvernance du code IA impose un examen indépendant des modèles

WebClaw : Serveur MCP Open-Source pour l'Extraction Web avec Claude

Flavian : Un Framework de Développement WordPress avec 24 Agents de Code Claude Spécialisés

Savant Commander 48B : Un modèle personnalisé Qwen 3 à base de mélange d'experts, intégrant 12 modèles distillés