Benchmark MCP Stack: Caché de Prompt con 2 Líneas de Código

Al optimizar un stack MCP de Claude Code, es fácil centrarse en una métrica: el ahorro de bytes. Pero el nuevo análisis de Greg Shevchenko muestra que un benchmark de un solo eje puede recomendar un sistema que es estrictamente peor en producción. El eje faltante: amigabilidad con la caché, es decir, si la misma entrada produce bytes idénticos entre ejecuciones para que la caché de prompt de Anthropic acierte.

El mayor ahorrador de bytes de Shevchenko —un MCP de recuperación que reducía el contexto un 60-70%— en realidad estaba anulando la caché de prompt con TTL de 5 minutos en cada llamada. Dos ejecuciones de la misma consulta producían bytes diferentes porque el orden de salida de rg --files-with-matches se filtraba a través de una secuencia de inserción en un Map hacia el contexto final. La solución fue de dos líneas: ordenar los resultados de rg antes de cortar, y ordenar las entradas del Map por ruta. Después del cambio, el ahorro de bytes se mantuvo sin cambios, pero cache_friendly_score pasó de ~0% a 100%.

Qué mide el Harness

Shevchenko publicó un harness de benchmark de código abierto (Python solo con stdlib, fuera de línea) que mide:

Relación media + CV en N≥5 ejecuciones por fixture → eje de ahorro de bytes
Verificación de recuento MD5 único == 1 → eje de amigabilidad con la caché (0–100%)
Auditoría de 12 anti-patrones en definiciones de herramientas (referencia DSA)

Cualquier compresor como (str) -> str se puede conectar. El harness utiliza IC de bootstrap por conglomerados, IC de Wilson, preregistro y κ de Cohen con datos reales.

Alternativas Públicas Evaluadas

Shevchenko evaluó documentación pública de: índice de código de Cursor, Sourcegraph Cody, Mapa de repositorio de Aider, Microsoft LLMLingua/LLMLingua-2, Firecrawl/Jina Reader, RouteLLM/Martian (hasta mayo de 2026). Ninguno divulga métricas de amigabilidad con la caché.

Limitaciones

Hipotetizó que la capa de preparación desencadena más aciertos de caché descendentes en turnos posteriores, pero no alcanzó significancia (Welch p=0.32, d de Cohen≈0.18, N=137). El κ de Cohen con dos jueces sobre el corpus fue 0.5955 (moderado, por debajo del umbral de 0.7), con 4 de 5 desacuerdos en una tarea ambigua: corregir la especificación elevaría κ a ~0.83.

El harness tiene licencia MIT. Si ejecutas un stack MCP de Claude Code, medir cache_friendly_score ahora es un paso concreto y procesable.

📖 Lee la fuente completa: r/ClaudeAI

Midiendo la pila MCP de Claude Code: Amigabilidad de caché vs. Ahorro de bytes, y una corrección de 2 líneas para el caché de prompts

Qué mide el Harness

Alternativas Públicas Evaluadas

Limitaciones

👀 Ver también

La Habilidad de Clawhub Permite a OpenClaw Analizar Datos de Apple Health a través de API

Revisión de la aplicación de productividad Dart AI con integración de OpenClaw

Sistema ACO: Pipeline de IA Multiagente desde Issue de GitHub hasta PR Fusionado

agentmemory V4 logra un 96.2% en el benchmark LongMemEval, superando a los sistemas de memoria de IA comerciales.