Examen des performances du modèle OpenClaw : Codex 5.3 en tête, les modèles GLM déçoivent

Classement des performances des modèles pour OpenClaw
Un développeur a testé plusieurs modèles d'IA avec OpenClaw et a partagé des observations détaillées sur leurs performances. Les tests ont couvert les modèles Codex, Google, Sonnet, Gemini, DeepSeek et GLM de Z.ai, en se concentrant sur l'expérience d'utilisation pratique plutôt que sur des benchmarks.
Modèles les plus performants
- Codex 5.3 - Noté 9/10. Le modèle préféré du développeur, probablement affiné pour OpenClaw avec des fonctionnalités d'agent de chat améliorées. Il comprend bien l'intention de l'utilisateur, fournit une sortie souhaitée de manière cohérente et présente des interruptions et des bogues minimes.
- Sonnet 4.6 - Noté 8/10. Deuxième favori en raison de sa vitesse et de sa capacité à résoudre les problèmes. Offre une expérience suffisante lorsque Codex 5.3 n'est pas disponible, adapté à un usage quotidien.
- DeepSeek 3.2 Agent - Noté 7/10. Clairement personnalisé pour OpenClaw, donne l'impression de travailler avec un agent natif. Moins performant en codage que Sonnet, Opus ou Codex, mais une alternative solide pour un usage quotidien. Les frais d'API sont notés comme potentiellement élevés pour une alternative chinoise.
Modèles de niveau intermédiaire
- Google 3.1 Pro (Low et High) - Noté 6/10. Testé avec l'authentification antigravity. Interaction faible avec OpenClaw, performances lentes, pas convaincant pour une utilisation constante. Ne serait considéré que si Sonnet et Codex n'étaient pas disponibles.
Performances décevantes
- GLM 4.7 - Noté 5/10. Commercialisé comme une alternative à Sonnet avec des frais d'API bon marché et un quota 3 à 4 fois supérieur à celui de Codex sur les comptes pro. Cependant, il se bloque constamment, répond tardivement et produit une longueur de sortie incohérente même sur des tâches simples comme la vérification des e-mails. A consommé 1 million de tokens dans une nouvelle session juste pour vérifier 5 e-mails.
- GLM 5 - Noté 5/10. Les benchmarks prétendent qu'il rivalise avec Opus et Codex 5.3, mais l'expérience OpenClaw ne correspond pas. Utilise 2 à 3 fois plus de tokens pour les mêmes tâches, répond tardivement et fournit des réponses de codage au niveau de Sonnet 4.5. Nécessite une optimisation spécifique pour OpenClaw. Le principal avantage est le prix.
- Gemini 3 Flash - Noté 4/10. Seulement adapté à des tâches très simples, non recommandé pour une utilisation sérieuse.
Le développeur a noté que choisir le bon modèle est difficile en raison de différences évidentes dans l'expérience, peut-être dues au fait qu'OpenClaw n'est pas optimisé ou à des problèmes de qualité des modèles. Il a exprimé sa déception concernant les modèles GLM malgré son souhait de se diversifier au-delà de Codex, espérant des corrections futures.
📖 Read the full source: r/openclaw
👀 See Also

OpenClaw contre Hermes : Philosophies de conception différentes pour les agents d'IA
OpenClaw est une passerelle multi-canaux qui connecte WhatsApp, Telegram, Discord, Slack et iMessage avec un vaste écosystème de compétences, tandis qu'Hermes est un agent d'apprentissage qui évalue les tâches, enregistre les modèles sous forme de compétences réutilisables et construit un modèle de votre flux de travail au fil du temps.

Agent IA Crée Autonome une Vidéo en Utilisant Remotion Sans Outils Préétablis
Un développeur a testé un agent d'IA qui a créé de manière autonome un court montage vidéo en installant Remotion, en écrivant du code de composition, en déboguant des problèmes et en livrant un fichier rendu sans intervention humaine.

Crag : L'outil open-source génère des règles d'agent IA unifiées à partir des configurations de projet
Crag est un compilateur open-source qui analyse les configurations de projet et génère un fichier governance.md unique, puis le compile en plusieurs fichiers de règles pour agents IA afin d'éviter la dérive de configuration entre des outils comme Claude Code, Cursor et Copilot.

Claude Code v2.1.126 : Sélecteur de modèle, purge de projet, correctifs OAuth et améliorations de sécurité
Claude Code v2.1.126 ajoute un sélecteur /model pour les passerelles compatibles Anthropic, une nouvelle commande claude project purge, corrige la connexion OAuth dans WSL2/SSH/conteneurs, et résout des problèmes de sécurité avec les paramètres gérés et l'exposition du presse-papiers sous Windows.