Benchmark Stack MCP : Corrigez le cache avec 2 lignes de code

Lors de l'optimisation d'un stack MCP Claude Code, il est facile de se concentrer sur une seule métrique : l'économie d'octets. Mais la nouvelle analyse de Greg Shevchenko montre qu'un benchmark mono-axe peut recommander un système strictement pire en production. L'axe manquant : l'adaptabilité au cache, c'est-à-dire si la même entrée produit des octets identiques d'une exécution à l'autre, pour que le cache de prompt d'Anthropic fonctionne.

Le plus gros économiseur d'octets de Shevchenko—un MCP de récupération qui réduisait le contexte de 60 à 70 %—était en fait en train de neutraliser le cache de prompt à TTL de 5 minutes à chaque appel. Deux exécutions de la même requête produisaient des octets différents parce que l'ordre de sortie de rg --files-with-matches s'infiltrait via une séquence d'insertion Map dans le contexte final. Le correctif tenait en deux lignes : trier les résultats de rg avant la découpe, et trier les entrées Map par chemin. Après le changement, les économies d'octets sont restées inchangées, mais le cache_friendly_score est passé d'environ 0 % à 100 %.

Ce que mesure le Harness

Shevchenko a publié un harness de benchmark open source (Python stdlib uniquement, hors ligne) qui mesure :

Ratio moyen + CV sur N≥5 exécutions par fixture → axe économie d'octets
Vérification du nombre de MD5 uniques == 1 → axe adaptabilité au cache (0–100 %)
Audit de 12 anti-patrons sur les définitions d'outils (référence DSA)

Tout compresseur sous forme (str) -> str peut être branché. Le harness utilise des IC bootstrap par cluster, des IC de Wilson, une préinscription et un κ de Cohen sur données réelles.

Alternatives publiques examinées

Shevchenko a examiné les docs publics de : Cursor codebase index, Sourcegraph Cody, Aider repo-map, Microsoft LLMLingua/LLMLingua-2, Firecrawl/Jina Reader, RouteLLM/Martian (en mai 2026). Aucun ne divulgue de métriques d'adaptabilité au cache.

Limites

Il a émis l'hypothèse que la couche de préparation déclenche davantage de hits de cache en aval lors des tours suivants, mais cela n'a pas atteint la significativité (Welch p=0,32, d de Cohen≈0,18, N=137). Le κ de Cohen à deux juges sur le corpus était de 0,5955 (modéré, sous le seuil de 0,7), avec 4 désaccords sur 5 pour une tâche ambiguë—corriger la spécification porterait κ à ~0,83.

Le harness est sous licence MIT. Si vous utilisez un stack MCP Claude Code, mesurer le cache_friendly_score est désormais une étape concrète et actionnable.

📖 Lire la source complète : r/ClaudeAI

Mesure de la pile MCP de Claude Code : convivialité du cache vs économies d'octets, et une correction en 2 lignes pour le cache de prompt

Ce que mesure le Harness

Alternatives publiques examinées

Limites

👀 See Also

Gestionnaire de projet de style Trello local pour agents OpenClaw utilisant des fichiers markdown

Crochet de PreToolUse Résout le Problème de Plantage d'Image de Code Claude

Serveur MCP Local Connecte Claude aux Applications Mac Sans Cloud ni Jetons

Spectral : Capturez le trafic des applications pour générer des serveurs MCP destinés aux agents OpenClaw