Charger chaque serveur MCP à chaque invite détruit silencieusement le budget de tokens.

Un post sur r/ClaudeAI rapporte un problème subtil mais coûteux : lorsque plusieurs serveurs MCP sont configurés, chaque prompt les charge tous par défaut, même pour des requêtes triviales. L'utilisateur avait 5 à 6 serveurs et ne s'en est rendu compte qu'en vérifiant l'utilisation des tokens – les prompts brûlaient des tokens pour charger des définitions de serveurs non pertinentes à chaque fois.
Détails clés
- Chaque prompt chargeait l'ensemble des serveurs MCP (5 à 6 serveurs).
- Même les prompts simples (ex. "Quelle heure est-il ?") déclenchaient toutes les définitions de serveurs.
- Solution : une couche de routage personnalisée qui sélectionne uniquement les serveurs pertinents pour le prompt.
- Résultat : l'utilisation des tokens a considérablement diminué, et les temps de réponse des prompts se sont améliorés.
- L'OP a admis "ne pas croire avoir laissé ça durer aussi longtemps sans vérifier".
Contexte technique
Les serveurs MCP (Model Context Protocol) sont des outils qui étendent les capacités de Claude (par exemple, accès au système de fichiers, requêtes de base de données, scraping web). Le comportement par défaut dans de nombreuses configurations – y compris les clients forké et les configurations manuelles – est d'envoyer la liste complète des définitions de serveurs avec chaque message. Cela signifie que les outils pour l'accès à la base de données, les E/S fichiers, la navigation web, etc., sont tous déversés dans la fenêtre de contexte avant que l'entrée réelle de l'utilisateur ne soit traitée.
Une couche de routage peut inspecter le message de l'utilisateur (ou le prompt système) et inclure conditionnellement uniquement les serveurs MCP dont les descriptions ou les outils correspondent à l'intention. Par exemple, un prompt mentionnant un chemin de fichier activerait les outils de fichier ; une question sur les cours boursiers ne chargerait que le serveur financier. Cela évite le surcoût en tokens des métadonnées de serveurs non pertinentes.
À qui cela s'adresse
Développeurs exécutant Claude avec plusieurs serveurs MCP, en particulier dans des pipelines automatisés ou des fronts personnalisés où l'efficacité des tokens est importante.
📖 Lire la source complète : r/ClaudeAI
👀 See Also

llama.cpp Retraitement massif de prompts avec des agents de codage : Débogage du cache KV et de l'échange de contexte
Un utilisateur signale que llama.cpp retraite 40 000+ tokens sur des prompts similaires lorsqu'il utilise opencode + pi.dev, malgré une forte similarité LCP. La configuration détaillée et les causes suspectées sont partagées.

Comment désactiver la fenêtre contextuelle de 1M de Claude Code pour réduire l'utilisation de jetons
Les utilisateurs d'Anthropic peuvent désactiver la fenêtre de contexte de 1M dans Claude Code en ajoutant des variables d'environnement à settings.json, ce qui peut réduire la consommation inattendue de tokens. La source fournit deux options de configuration : désactiver complètement le contexte 1M ou limiter la fenêtre de compactage automatique.

Correction du Dispositif de Vérification Résout le Problème d'Exécution du Plan de Claude
Un développeur a créé une couche de vérification en bash ou Python de 30 à 50 lignes qui vérifie si Claude exécute réellement chaque étape de ses propres plans en vérifiant des artefacts comme l'existence de fichiers, les réponses API et les changements de configuration.

Solution de contournement pour Firefox pour le problème de gel de Claude.ai utilisant un script Tampermonkey
Un utilisateur de Reddit partage un contournement utilisant un script Tampermonkey pour les utilisateurs de Firefox qui rencontrent des blocages sur Claude.ai. Le script modifie le comportement de Date.now() pour éviter les conflits de temporisation qui provoquent le gel de l'interface.