Réduisez vos coûts agent : 18$ à 4$ via DeepSeek V4 Pro

Un développeur sur r/ClaudeAI décrit une stratégie pratique d'optimisation des coûts pour les boucles d'agents : router les sous-tâches routinières vers des modèles bon marché et réserver les modèles coûteux (Opus 4.7) uniquement pour le raisonnement complexe. Son agent de refactorisation — gérant les renommages de variables CSS, les mises à jour de configuration YAML et les exécutions de linter via MCP — envoyait initialement chaque étape à Opus 4.7 pour un total d'environ 18 $. Après avoir implémenté la logique de routage, 178 des 212 étapes ont été confiées à des modèles bon marché, réduisant le coût à environ 4 $ sans différence de qualité observable sur les modifications courantes.

Logique de routage

Sous-tâches difficiles → Opus 4.7 : Architecture des composants, débogage de code écrit à 2h du matin, tout ce qui nécessite un raisonnement soutenu sur de longues conversations. L'auteur note qu'Opus est véritablement inégalé pour ce genre de travail — une tentative précédente de router un bug d'intergiciel d'authentification vers un modèle moins cher a silencieusement cassé la gestion des sessions, coûtant une heure de traçage.
Sous-tâches routinières → modèles moins chers : Lint, renommage, modifications de configuration, orchestration d'outils. L'auteur a choisi DeepSeek V4 Pro pour les tâches de codage général et Tencent Hunyuan Hy3 preview pour les appels d'outils lourds. Fin avril, Hunyuan Hy3 était classé premier sur OpenRouter en volume d'appels d'outils et ne rate presque jamais un appel de fonction lorsque le schéma est propre.

Comparaison des coûts

Opus 4.7 : ~0,18 $ par million de tokens d'entrée (estimé d'après le contexte d'une alternative ~28 fois moins chère).
Tencent Hunyuan Hy3 : 0,18 $ par million de tokens d'entrée, 0,59 $ par million de tokens de sortie — environ 28 fois moins cher qu'Opus 4.7 à l'entrée.
Même refactorisation en 212 étapes : 178 étapes vers le niveau bon marché, 34 étapes vers Opus. Le coût est passé de 18 $ à environ 4 $.

Modes de défaillance

Le modèle d'appel d'outils hallucine des paramètres lorsque les schémas sont négligés (l'auteur admet que les schémas étaient mauvais).
DeepSeek V4 Pro écrit parfois un code syntaxiquement parfait qui fait le contraire de ce qui était demandé, survivant à un rapide coup d'œil.
Aucun des modèles bon marché ne peut égaler Opus pour le débogage de problèmes profonds (par exemple, un flux d'authentification qui avale silencieusement un cookie).

Heuristique de décision

La règle empirique de routage de l'auteur : « À quel point une réponse erronée est-elle coûteuse à détecter ? » Un mauvais correctif de lint coûte un revert git de 2 secondes ; un mauvais choix d'architecture coûte tout l'après-midi.

Les économies ont permis d'effectuer des tâches auparavant négligées — comme écrire et exécuter des tests pour chaque modification CSS, ou régénérer toutes les images Open Graph — car à quelques fractions de cent par appel d'outil, il n'y a aucune raison de ne pas le faire.

📖 Read the full source: r/ClaudeAI