Pipeline MCP à appel unique : réduction de 74% des tokens Claude Code

Un développeur a partagé son expérience de création d'un moteur contextuel (serveur MCP) qui donne à Claude Code un graphe de dépendances des bases de code, lui permettant de lire uniquement le code pertinent au lieu des fichiers entiers. L'outil réduit considérablement l'utilisation de tokens en servant des graphes de dépendances et des squelettes plutôt que des fichiers bruts.

Problème initial et solution initiale

Claude Code lit généralement des fichiers entiers et déverse tout dans le contexte, consommant rapidement des tokens. L'approche initiale consistait à servir uniquement le code pertinent via MCP en utilisant des graphes de dépendances et des squelettes au lieu de fichiers bruts, ce qui a réduit à lui seul l'utilisation de tokens de 65 %.

Inefficacité identifiée et solution

Les utilisateurs ont souligné que le flux de travail MCP lui-même était inefficace, avec des agents effectuant plusieurs allers-retours : appel de get_context_capsule, lecture du résultat, puis appel de get_impact_graph, lecture de ce résultat, suivi de search_memory, et lecture de ce résultat. Cela créait trois allers-retours avec des résultats chevauchants dans le contexte.

La correction run_pipeline

Le développeur a livré un outil MCP en un seul appel appelé run_pipeline qui remplace le flux de travail en plusieurs étapes. L'outil détecte automatiquement l'intention (déboguer/modifier/refactoriser/explorer) et exécute la combinaison appropriée de recherche contextuelle, d'analyse d'impact et de rappel de mémoire côté serveur.

run_pipeline({
  task: "corriger le bug de validation JWT",
  preset: "auto",
  max_tokens: 10000,
  observation: "JWT utilise Ed25519" // enregistrer l'information dans le même appel
})

Cet appel unique remplace 3-4 appels individuels. Les résultats sont dédupliqués et fusionnés dans un budget de tokens avant d'atteindre la fenêtre de contexte, ce qui entraîne environ 60 % de tokens de contexte en moins par rapport à l'appel d'outils individuellement. Le paramètre observation permet aux agents d'enregistrer des informations apprises dans le même appel sans étape save_observation séparée. La mémoire est liée aux nœuds du graphe de code, donc lorsque le code change, les observations sont automatiquement marquées comme obsolètes.

Fonctionnalités supplémentaires livrées

Pipeline d'observation passive : observateur de fichiers → différence de hachage blake3 → différences structurelles au niveau AST → auto-correlation avec les appels d'outils → observations sans configuration
CLI fonctionnant sans VS Code : npm install -g vexp-cli
Crochets Git qui n'écrasent pas les crochets existants (blocs délimités par des marqueurs)
Affichage des économies de tokens dans la barre latérale de VS Code montrant les chiffres réels avec une fenêtre glissante de 24 heures

Disponibilité

L'outil est gratuit à essayer avec un niveau gratuit généreux offrant 2 000 nœuds, des fonctionnalités de pipeline de base et une mémoire de session complète. Aucun compte ni clé API n'est requis, et il n'effectue aucun appel réseau. L'architecture principale comprend un moteur de graphe Rust et des analyseurs tree-sitter construits par le développeur, avec Claude Code assistant sur la couche de protocole MCP, les migrations de schéma SQLite et les modèles d'instructions des agents.

📖 Lire la source complète : r/ClaudeAI

Le pipeline MCP à appel unique réduit l'utilisation des tokens de Claude Code de 74 %.

Problème initial et solution initiale

Inefficacité identifiée et solution

La correction run_pipeline

Fonctionnalités supplémentaires livrées

Disponibilité

👀 See Also

Dirac : un agent open-source domine TerminalBench avec 65,2 %, moins cher et ouvert

Serveur MCP LocalSynapse Permet à Claude de Rechercher des Documents Locaux Hors Ligne

L'outil GrapeRoot réduit les coûts de Claude Code de 45 % grâce à un contexte de référentiel pré-analysé.

Vibeyard IDE ajoute un navigateur intégré pour l'édition directe d'interfaces web avec des agents IA.