Custo Real do MCP Context Bloat: 38k Tokens e Solução Prática

Um usuário do Reddit que executou 9 servidores MCP no Claude Code por quatro meses detalhou os custos ocultos e a degradação de desempenho que enfrentou, juntamente com uma solução concreta. O post é leitura obrigatória para quem usa MCP em produção.

A Matemática

Com 9 servidores (filesystem, GitHub, Stripe, Linear, Notion, Postgres, Sentry, AWS e customizados) expondo 142 ferramentas no total, a inicialização a frio consome 38k tokens de prompt do sistema + esquemas de ferramentas a cada turno. A 200 turnos/dia, são 7,6M de tokens de entrada/dia. Com preços do Sonnet (~$15/M saída, ~$3/M entrada), isso dá ~$23/dia ou ~$700/mês apenas nas definições das ferramentas MCP — antes de qualquer trabalho real. O cache só ajuda em prefixos idênticos; rodar um servidor MCP invalida o cache.

O Que Quebra

A seleção de ferramentas degrada: Com 142 ferramentas no contexto, Claude começou a escolher a ferramenta errada para consultas óbvias (ex.: usar linear_search_issues quando pedia para ler um arquivo).
Enumeração lenta: Servidores com muitos esquemas, como AWS, levam de 4 a 6 segundos para listar ferramentas.
Propagação silenciosa de erros: Uma ferramenta mal descrita pode contaminar a classificação de todas as consultas relacionadas.

A Solução: Padrão de Gateway com BM25

O usuário migrou para um padrão de gateway usando Ratel, uma biblioteca Rust de código aberto e em processo com classificação BM25. Claude agora vê apenas três ferramentas: search_tools, invoke_tool e auth. Todo o resto é classificado sob demanda. Resultados:

A inicialização a frio caiu de 38k para ~4k tokens.
A seleção de ferramentas erradas foi quase eliminada porque o modelo só vê as 5 melhores classificadas pela consulta.
A configuração levou 10 minutos (um comando faz a importação do Claude Code).

O autor observa que a maioria das startups de "otimizador MCP" é apenas busca BM25 disfarçada. As descrições de ferramentas são curtas, estruturadas e cheias de correspondências de palavras-chave — sem necessidade de vetor DB ou LLM no loop. BM25 sobre uma projeção plana de nome + descrição obtém 90% do ganho deterministicamente em microssegundos, offline.

Lição fundamental: "substituir" é melhor que "sugerir". Se seu gateway entrega 5 ferramentas ao modelo em vez de 142, a matemática funciona. Se sugere 5 junto com 142, o modelo ainda carrega 142 e você não economizou nada.

📖 Leia a fonte completa: r/ClaudeAI

MCP Context Bloat: Custos Reais e uma Solução Prática para Usuários do Claude Code

A Matemática

O Que Quebra

A Solução: Padrão de Gateway com BM25

👀 See Also

Sobreposição em Tempo Real para Monitorar Limites de Uso de Código Claude

Vibeyard adiciona compartilhamento de sessão P2P para Claude Code

InsForge: Plataforma de Backend Open-Source para Agentes de Codificação de IA

Arquitetura de Memória do Vektori: Princípios do Sistema Vazado do Claude