Midiendo la pila MCP de Claude Code: Amigabilidad de caché vs. Ahorro de bytes, y una corrección de 2 líneas para el caché de prompts

Al optimizar un stack MCP de Claude Code, es fácil centrarse en una métrica: el ahorro de bytes. Pero el nuevo análisis de Greg Shevchenko muestra que un benchmark de un solo eje puede recomendar un sistema que es estrictamente peor en producción. El eje faltante: amigabilidad con la caché, es decir, si la misma entrada produce bytes idénticos entre ejecuciones para que la caché de prompt de Anthropic acierte.
El mayor ahorrador de bytes de Shevchenko —un MCP de recuperación que reducía el contexto un 60-70%— en realidad estaba anulando la caché de prompt con TTL de 5 minutos en cada llamada. Dos ejecuciones de la misma consulta producían bytes diferentes porque el orden de salida de rg --files-with-matches se filtraba a través de una secuencia de inserción en un Map hacia el contexto final. La solución fue de dos líneas: ordenar los resultados de rg antes de cortar, y ordenar las entradas del Map por ruta. Después del cambio, el ahorro de bytes se mantuvo sin cambios, pero cache_friendly_score pasó de ~0% a 100%.
Qué mide el Harness
Shevchenko publicó un harness de benchmark de código abierto (Python solo con stdlib, fuera de línea) que mide:
- Relación media + CV en N≥5 ejecuciones por fixture → eje de ahorro de bytes
- Verificación de recuento MD5 único == 1 → eje de amigabilidad con la caché (0–100%)
- Auditoría de 12 anti-patrones en definiciones de herramientas (referencia DSA)
Cualquier compresor como (str) -> str se puede conectar. El harness utiliza IC de bootstrap por conglomerados, IC de Wilson, preregistro y κ de Cohen con datos reales.
Alternativas Públicas Evaluadas
Shevchenko evaluó documentación pública de: índice de código de Cursor, Sourcegraph Cody, Mapa de repositorio de Aider, Microsoft LLMLingua/LLMLingua-2, Firecrawl/Jina Reader, RouteLLM/Martian (hasta mayo de 2026). Ninguno divulga métricas de amigabilidad con la caché.
Limitaciones
Hipotetizó que la capa de preparación desencadena más aciertos de caché descendentes en turnos posteriores, pero no alcanzó significancia (Welch p=0.32, d de Cohen≈0.18, N=137). El κ de Cohen con dos jueces sobre el corpus fue 0.5955 (moderado, por debajo del umbral de 0.7), con 4 de 5 desacuerdos en una tarea ambigua: corregir la especificación elevaría κ a ~0.83.
El harness tiene licencia MIT. Si ejecutas un stack MCP de Claude Code, medir cache_friendly_score ahora es un paso concreto y procesable.
📖 Lee la fuente completa: r/ClaudeAI
👀 Ver también

La Habilidad de Clawhub Permite a OpenClaw Analizar Datos de Apple Health a través de API
Una nueva habilidad de Clawhub llamada 'apple-health-export-analyzer' permite a OpenClaw leer y analizar datos de Apple Health sirviéndolos como una API, analizando archivos XML grandes para extraer métricas relevantes y proporcionar actualizaciones diarias de salud con sugerencias prácticas.

Revisión de la aplicación de productividad Dart AI con integración de OpenClaw
Un usuario informa haber cambiado de Things a Dart AI para la productividad, encontrándolo mejor para implementar la metodología Getting Things Done con acceso completo a OpenClaw, a pesar de problemas con la interfaz y la complejidad inicial de configuración.

Sistema ACO: Pipeline de IA Multiagente desde Issue de GitHub hasta PR Fusionado
ACO System es un framework multiagente de código abierto en el que seis agentes de IA especializados ejecutan de forma autónoma todo el pipeline de desarrollo, desde un Issue de GitHub hasta un PR fusionado, con una puerta de entrada determinista que rechaza historias defectuosas antes de que lleguen a los desarrolladores.

agentmemory V4 logra un 96.2% en el benchmark LongMemEval, superando a los sistemas de memoria de IA comerciales.
agentmemory V4 obtuvo un puntaje del 96.2% en LongMemEval, superando a varias empresas de memoria de IA con financiamiento, incluyendo PwC Chronos (95.6%), Mastra (94.87%) y OMEGA (93.2%). El sistema fue construido por una sola persona en 16 días en una PC de gama media con un presupuesto de $1,000.