Économiser Tokens Claude Code : Routage Vers Haiku

Un développeur sur r/ClaudeAI atteignait chaque semaine son quota de 20 $ pour Claude Code dès jeudi. Après avoir audité les 50 dernières invites, il a réalisé que la plupart étaient de simples questions de chat ne nécessitant pas un agent : « que dit cette trace de pile », « regex pour trouver X », « explique ce que fait cette commande bash en une ligne », « convertis cette requête curl en httpie », et « quel est le jq pour extraire le champ Y de ceci ».

Chacune de ces invites dans Claude Code payait l'intégralité de la taxe d'agent — chargement du contexte, définitions d'outils, tokens de planification — pour une réponse en une ligne. La solution : router toutes les questions de type chat vers une fenêtre de chat classique utilisant un modèle bon marché (Haiku ou GPT-mini). Réserver Claude Code pour les modifications multi-fichiers, les refactorisations et le débogage nécessitant une lecture du code source.

Résultats après environ 3 semaines

Passer du quota atteint jeudi à ne plus l'atteindre du tout, en effectuant la même charge de travail.
Dépense supplémentaire en appels API de modèles bon marché : environ 3–4 $/semaine — négligeable.
Avantage secondaire : les réponses des modèles bon marché arrivent plus vite que Claude Code qui lance sa boucle d'agent, donc les questions rapides semblent plus rapides aussi.

Note sur le workflow

Pour éviter de basculer entre le terminal (Claude Code) et une fenêtre de chat, ils utilisent désormais un terminal appelé yaw.sh qui intègre un chat multi-fournisseurs à l'invite, à côté de Claude Code. Mais n'importe quel outil de chat dans une autre fenêtre fonctionne — c'est le changement de workflow qui économise les tokens.

TL;DR : Si vous atteignez le quota hebdomadaire de Claude Code, auditez vos 50 dernières invites. La plupart n'ont probablement pas besoin d'un agent. Déplacez-les et vous cesserez probablement d'atteindre le quota.

📖 Lire la source complète : r/ClaudeAI

Arrêtez de brûler des tokens Claude Code pour des questions de chat

Résultats après environ 3 semaines

Note sur le workflow

👀 See Also

Acheminement des sous-tâches de l'agent vers des modèles moins chers : le coût est passé de 18 $ à 4 $ pour la même refonte

Gestion de la consommation de tokens de Claude IA : conseils pratiques issus de l'expérience des développeurs

Utiliser le HTML comme langage de chat principal pour les agents de codage IA afin de permettre les diagrammes SVG

OpenClaw v2026.3.13 ajoute une configuration de cacheRetention par agent pour réaliser des économies sur les coûts des jetons OpenAI.