Benchmark de Stack MCP: Corrigir Cache com 2 Linhas de Código

Ao otimizar uma stack MCP do Claude Code, é fácil focar em uma métrica: economia de bytes. Mas a nova análise de Greg Shevchenko mostra que um benchmark de eixo único pode recomendar um sistema estritamente pior em produção. O eixo ausente: compatibilidade com cache, ou seja, se a mesma entrada produz bytes idênticos entre execuções para que o cache de prompt da Anthropic funcione.

O maior economizador de bytes de Shevchenko — um MCP de recuperação que reduzia o contexto em 60-70% — na verdade estava derrotando o cache de prompt com TTL de 5 minutos a cada chamada. Duas execuções da mesma consulta produziam bytes diferentes porque a ordem de saída de rg --files-with-matches vazava através de uma sequência de inserção em Map para o contexto final. A correção foi de duas linhas: ordenar os resultados do rg antes de fatiar, e ordenar as entradas do Map por caminho. Após a mudança, a economia de bytes permaneceu inalterada, mas o cache_friendly_score foi de ~0% para 100%.

O que o Harness Mede

Shevchenko lançou um harness de benchmark open-source (Python apenas com bibliotecas padrão, offline) que mede:

Razão média + CV em N≥5 execuções por fixture → eixo de economia de bytes
Verificação de MD5 único == 1 → eixo de compatibilidade com cache (0–100%)
Auditoria de 12 antipadrões em definições de ferramentas (referência DSA)

Qualquer compressor como (str) -> str pode ser plugado. O harness usa ICs bootstrap por cluster, ICs de Wilson, pré-registro e κ de Cohen com dados reais.

Alternativas Públicas Pesquisadas

Shevchenko pesquisou documentações públicas de: Cursor codebase index, Sourcegraph Cody, Aider repo-map, Microsoft LLMLingua/LLMLingua-2, Firecrawl/Jina Reader, RouteLLM/Martian (em maio de 2026). Nenhum divulgou métricas de compatibilidade com cache.

Limitações

Ele hipotetizou que a camada de preparação desencadeia mais cache downstream em turnos subsequentes, mas não atingiu significância (Welch p=0,32, d de Cohen ≈ 0,18, N=137). O κ de Cohen com dois juízes no corpus foi 0,5955 (moderado, abaixo do limiar de 0,7), com 4 de 5 discordâncias em uma tarefa ambígua — corrigir a especificação elevaria κ para ~0,83.

O harness é licenciado sob MIT. Se você está executando uma stack MCP do Claude Code, medir cache_friendly_score agora é uma etapa concreta e acionável.

📖 Leia a fonte original: r/ClaudeAI

Medindo o MCP Stack do Claude Code: Amigabilidade de Cache vs. Economia de Bytes, e uma Correção de 2 Linhas para Cache de Prompt

O que o Harness Mede

Alternativas Públicas Pesquisadas

Limitações

👀 See Also

Implementando um Assistente de Voz Local com Qwen3 em RTX 5060 Ti

Gerente de Produto Compartilha Mais de 70 Habilidades do Claude para Automatizar Fluxos de Trabalho de GP

Construindo um Sistema de Conhecimento Autossuficiente com Claude Code e Obsidian

Medidor de Throttle: Medidor de Uso de Código Claude de Código Aberto para macOS