Mesure de la pile MCP de Claude Code : convivialité du cache vs économies d'octets, et une correction en 2 lignes pour le cache de prompt

Lors de l'optimisation d'un stack MCP Claude Code, il est facile de se concentrer sur une seule métrique : l'économie d'octets. Mais la nouvelle analyse de Greg Shevchenko montre qu'un benchmark mono-axe peut recommander un système strictement pire en production. L'axe manquant : l'adaptabilité au cache, c'est-à-dire si la même entrée produit des octets identiques d'une exécution à l'autre, pour que le cache de prompt d'Anthropic fonctionne.
Le plus gros économiseur d'octets de Shevchenko—un MCP de récupération qui réduisait le contexte de 60 à 70 %—était en fait en train de neutraliser le cache de prompt à TTL de 5 minutes à chaque appel. Deux exécutions de la même requête produisaient des octets différents parce que l'ordre de sortie de rg --files-with-matches s'infiltrait via une séquence d'insertion Map dans le contexte final. Le correctif tenait en deux lignes : trier les résultats de rg avant la découpe, et trier les entrées Map par chemin. Après le changement, les économies d'octets sont restées inchangées, mais le cache_friendly_score est passé d'environ 0 % à 100 %.
Ce que mesure le Harness
Shevchenko a publié un harness de benchmark open source (Python stdlib uniquement, hors ligne) qui mesure :
- Ratio moyen + CV sur N≥5 exécutions par fixture → axe économie d'octets
- Vérification du nombre de MD5 uniques == 1 → axe adaptabilité au cache (0–100 %)
- Audit de 12 anti-patrons sur les définitions d'outils (référence DSA)
Tout compresseur sous forme (str) -> str peut être branché. Le harness utilise des IC bootstrap par cluster, des IC de Wilson, une préinscription et un κ de Cohen sur données réelles.
Alternatives publiques examinées
Shevchenko a examiné les docs publics de : Cursor codebase index, Sourcegraph Cody, Aider repo-map, Microsoft LLMLingua/LLMLingua-2, Firecrawl/Jina Reader, RouteLLM/Martian (en mai 2026). Aucun ne divulgue de métriques d'adaptabilité au cache.
Limites
Il a émis l'hypothèse que la couche de préparation déclenche davantage de hits de cache en aval lors des tours suivants, mais cela n'a pas atteint la significativité (Welch p=0,32, d de Cohen≈0,18, N=137). Le κ de Cohen à deux juges sur le corpus était de 0,5955 (modéré, sous le seuil de 0,7), avec 4 désaccords sur 5 pour une tâche ambiguë—corriger la spécification porterait κ à ~0,83.
Le harness est sous licence MIT. Si vous utilisez un stack MCP Claude Code, mesurer le cache_friendly_score est désormais une étape concrète et actionnable.
📖 Lire la source complète : r/ClaudeAI
👀 See Also

Gestionnaire de projet de style Trello local pour agents OpenClaw utilisant des fichiers markdown
Un développeur a créé un tableau Trello local pour gérer des projets avec des agents OpenClaw, utilisant Node.js + Express pour l'API, React + react-trello pour l'interface utilisateur, et des fichiers markdown avec un en-tête YAML comme couche de données. Le système fonctionne sur la machine OpenClaw et est accessible localement, les agents lisant et écrivant directement les fichiers de cartes sur le système de fichiers.

Crochet de PreToolUse Résout le Problème de Plantage d'Image de Code Claude
Un développeur a créé un crochet PreToolUse qui intercepte les appels de lecture de Claude Code sur les images, les convertit de manière sécurisée et les relaie via un sous-processus Haiku pour éviter les plantages d'erreur API 400 causés par des images problématiques.

Serveur MCP Local Connecte Claude aux Applications Mac Sans Cloud ni Jetons
Local MCP est un serveur MCP natif pour macOS qui donne à Claude Desktop, Cursor, Windsurf et VS Code un accès aux données de Mail, Calendar, Teams et OneDrive sur votre Mac, sans traitement cloud ni jetons API.

Spectral : Capturez le trafic des applications pour générer des serveurs MCP destinés aux agents OpenClaw
Spectral est un outil open-source qui capture le trafic de n'importe quelle application, l'analyse avec un LLM et génère un serveur MCP fonctionnel, permettant aux agents OpenClaw d'appeler directement l'API réelle de l'application au lieu de s'appuyer sur l'automatisation du navigateur.