Acheminement des sous-tâches de l'agent vers des modèles moins chers : le coût est passé de 18 $ à 4 $ pour la même refonte

Un développeur sur r/ClaudeAI décrit une stratégie pratique d'optimisation des coûts pour les boucles d'agents : router les sous-tâches routinières vers des modèles bon marché et réserver les modèles coûteux (Opus 4.7) uniquement pour le raisonnement complexe. Son agent de refactorisation — gérant les renommages de variables CSS, les mises à jour de configuration YAML et les exécutions de linter via MCP — envoyait initialement chaque étape à Opus 4.7 pour un total d'environ 18 $. Après avoir implémenté la logique de routage, 178 des 212 étapes ont été confiées à des modèles bon marché, réduisant le coût à environ 4 $ sans différence de qualité observable sur les modifications courantes.
Logique de routage
- Sous-tâches difficiles → Opus 4.7 : Architecture des composants, débogage de code écrit à 2h du matin, tout ce qui nécessite un raisonnement soutenu sur de longues conversations. L'auteur note qu'Opus est véritablement inégalé pour ce genre de travail — une tentative précédente de router un bug d'intergiciel d'authentification vers un modèle moins cher a silencieusement cassé la gestion des sessions, coûtant une heure de traçage.
- Sous-tâches routinières → modèles moins chers : Lint, renommage, modifications de configuration, orchestration d'outils. L'auteur a choisi DeepSeek V4 Pro pour les tâches de codage général et Tencent Hunyuan Hy3 preview pour les appels d'outils lourds. Fin avril, Hunyuan Hy3 était classé premier sur OpenRouter en volume d'appels d'outils et ne rate presque jamais un appel de fonction lorsque le schéma est propre.
Comparaison des coûts
- Opus 4.7 : ~0,18 $ par million de tokens d'entrée (estimé d'après le contexte d'une alternative ~28 fois moins chère).
- Tencent Hunyuan Hy3 : 0,18 $ par million de tokens d'entrée, 0,59 $ par million de tokens de sortie — environ 28 fois moins cher qu'Opus 4.7 à l'entrée.
- Même refactorisation en 212 étapes : 178 étapes vers le niveau bon marché, 34 étapes vers Opus. Le coût est passé de 18 $ à environ 4 $.
Modes de défaillance
- Le modèle d'appel d'outils hallucine des paramètres lorsque les schémas sont négligés (l'auteur admet que les schémas étaient mauvais).
- DeepSeek V4 Pro écrit parfois un code syntaxiquement parfait qui fait le contraire de ce qui était demandé, survivant à un rapide coup d'œil.
- Aucun des modèles bon marché ne peut égaler Opus pour le débogage de problèmes profonds (par exemple, un flux d'authentification qui avale silencieusement un cookie).
Heuristique de décision
La règle empirique de routage de l'auteur : « À quel point une réponse erronée est-elle coûteuse à détecter ? » Un mauvais correctif de lint coûte un revert git de 2 secondes ; un mauvais choix d'architecture coûte tout l'après-midi.
Les économies ont permis d'effectuer des tâches auparavant négligées — comme écrire et exécuter des tests pour chaque modification CSS, ou régénérer toutes les images Open Graph — car à quelques fractions de cent par appel d'outil, il n'y a aucune raison de ne pas le faire.
📖 Read the full source: r/ClaudeAI
👀 See Also

Comment prévenir la dégradation de CLAUDE.md : Traiter les règles comme du code
Après 18 mois d'utilisation réelle, un développeur partage quatre disciplines pour garder CLAUDE.md sous 100 lignes : l'utiliser comme un index, séparer les règles des sources, auditer à chaque PR, et supprimer plus que vous n'ajoutez.

Le bug du plugin Claude Code provoque le chargement en double des compétences, augmentant la compaction du contexte.
Un bug dans Claude Code provoque le chargement de chaque compétence deux fois en raison de répertoires de cache obsolètes et de la duplication de liens symboliques, augmentant considérablement la taille de l'invite système et déclenchant une compaction fréquente du contexte. La source fournit des scripts de vérification pour identifier le problème et des scripts de correction pour supprimer les versions obsolètes des plugins et les liens symboliques en double.

Directive de Mode Furtif Claude pour l'Exécution Autonome de l'IA
Un utilisateur de Reddit partage une directive 'mode furtif' qui force Claude à fonctionner silencieusement et de manière autonome, fournissant des résultats complets en une seule fois sans sortie de conversation jusqu'à ce que le travail soit terminé.

Utilisateur de Reddit Avertit : Lors de l'Utilisation de Claude pour des Projets Complexes, Attaquez-vous d'Abord à la Partie la Plus Difficile
Un développeur sur r/ClaudeAI rapporte que laisser l'IA planifier progressivement pour un éditeur de documents complexe a conduit à une 'soupe de complexité' et à des échecs. L'utilisateur conseille de forcer le modèle à résoudre le cas d'utilisation le plus compliqué en premier, car ses performances se dégradent avec plus de contexte.