6 Modèles Économiques vs Claude Sonnet 4.6 : Test d'Orchestration OpenClaw

Un développeur a réalisé un benchmark pour trouver une alternative moins chère à Claude Sonnet 4.6 en tant qu'orchestrateur principal pour une configuration d'agent de codage IA OpenClaw. Le test a utilisé un parcours constant de 5 tâches avec des fichiers et outils réels, sans instructions détaillées.

Les Tâches du Parcours

T1 : Rappeler des détails d'un fichier spécifique (éléments ouverts de MEMORY.md)
T2 : Inspecter des fichiers, repérer l'incomplétude, recouper + prioriser
T3 : Exécuter une commande shell, analyser et rapporter la sortie exacte
T4 : Repérer une tâche de délégation et la transférer correctement
T5 : Synthétiser les résultats en un résumé exécutif

Résultats du Benchmark

Scores bruts sur 5, avec coût par million de tokens de sortie :

Claude Sonnet 4.6 : 5/5 (15 $/M) – Référence, gère toute l'opération sans faille
o4-mini : 5/5 (4,40 $/M) – 71 % moins cher, a réussi toutes les tâches mais avec un délai notable sur les chaînes de raisonnement
Grok 4.1 Fast : 3/5 (0,50 $/M) – A excellé sur T1/T3/T5, mais a échoué sur T2 (a lu 4 lignes du journal SMS, a déclaré "tout est clair")
Gemini 2.5 Flash : 1/5 (2,50 $/M) – A réussi T1, puis s'est arrêté de répondre en plein prompt
DeepSeek V3.2 : 0/5 (0,42 $/M) – Temps d'exécution de 2 secondes, aucune sortie
Llama 4 Maverick : Disqualifié (0,60 $/M) – A halluciné le contenu des fichiers, a inventé de faux noms de fichiers vidéo datés de 2024 (l'année actuelle est 2026), n'a jamais appelé de vrais outils

Conclusion Clé : L'Écart de Jugement

Le point d'échec critique était le jugement des fichiers T2. Les modèles devaient lire un court journal (4 lignes : SMS envoyé, terminé), réaliser qu'il était incomplet, pivoter vers MEMORY.md, lister tous les éléments ouverts dans l'espace de travail, puis prioriser correctement (rendez-vous médical 19 mars > problème cron > etc.). Seuls Sonnet et o4-mini ont réussi. Les autres modèles ont été décrits comme "paresseux ou aveugles" sur cette tâche.

Mise en Œuvre Pratique

La conclusion du développeur : Sonnet reste l'orchestrateur principal. Grok 4.1 Fast est assigné à tous les sous-agents (questions-réponses vidéo, distribution, analytique) pour une économie de 97 % sur des tâches ciblées comme "générer un choix" ou "publier un tweet".

Ils ont également mis en place un travail cron à 3h du matin qui recherche de nouvelles versions de modèles via une recherche web, exécute automatiquement le parcours, génère un graphique en barres du meilleur au pire, et envoie le rapport par email.

La leçon principale : L'orchestration nécessite un jugement sur les lacunes des fichiers, le timing de la délégation et la synthèse – des domaines où les modèles bon marché échouent systématiquement. Les sous-agents, cependant, peuvent utiliser efficacement des modèles moins chers pour des tâches spécifiques et ciblées.

📖 Read the full source: r/openclaw