Carregar todo servidor MCP em todo prompt silenciosamente destrói o orçamento de tokens

Um post no r/ClaudeAI relata um problema sutil, porém custoso: quando vários servidores MCP estão configurados, cada prompt carrega todos eles por padrão, até mesmo consultas triviais. O usuário tinha de 5 a 6 servidores e não percebeu até verificar o uso de tokens — os prompts estavam queimando tokens ao carregar definições de servidores irrelevantes a cada vez.
Detalhes Principais
- Cada prompt carregava o conjunto completo de servidores MCP (5 a 6 servidores).
- Até prompts simples (ex.: "Que horas são?") acionavam todas as definições de servidores.
- Solução: uma camada de roteamento personalizada que seleciona apenas os servidores relevantes para o prompt.
- Resultado: o uso de tokens caiu significativamente e os tempos de resposta melhoraram.
- O OP admitiu que "não acredita que deixou isso passar por tanto tempo sem verificar".
Contexto Técnico
Servidores MCP (Model Context Protocol) são ferramentas que estendem as capacidades do Claude (ex.: acesso ao sistema de arquivos, consultas a banco de dados, web scraping). O comportamento padrão em muitas configurações — incluindo clientes forkados e configs manuais — é enviar a lista completa de definições de servidores a cada mensagem. Isso significa que ferramentas para acesso a banco de dados, E/S de arquivos, navegação na web, etc., são todas despejadas no contexto antes que a entrada real do usuário seja processada.
Uma camada de roteamento pode inspecionar a mensagem do usuário (ou o prompt do sistema) e incluir condicionalmente apenas os servidores MCP cujas descrições ou ferramentas correspondam à intenção. Por exemplo, um prompt mencionando um caminho de arquivo ativaria ferramentas de arquivo; uma pergunta sobre preços de ações carregaria apenas o servidor financeiro. Isso evita a sobrecarga de tokens de metadados de servidores irrelevantes.
Para Quem é Isso
Desenvolvedores que executam Claude com múltiplos servidores MCP, especialmente em pipelines automatizados ou frontends personalizados onde a eficiência de tokens é importante.
📖 Leia a fonte completa: r/ClaudeAI
👀 See Also

Construindo uma Camada de Processo sobre o Claude Code para Gerenciar Contexto e Coordenação
Uma equipe compartilha como construiu uma camada de processo sobre o Claude Code que declara entradas/saídas por etapa de engenharia, reduzindo a perda de contexto durante as transições e possibilitando ganhos de produtividade compostos sem depender de disciplina individual.

Otimizando CLAUDE.md para Reduzir a Ansiedade de Contexto no Claude AI
Uma discussão no Reddit destaca estratégias práticas para melhorar a eficácia do CLAUDE.md, incluindo manter arquivos com menos de 200 linhas, usar instruções específicas e verificáveis, e aproveitar os recursos de memória automática do Claude para evitar loops de correção que desperdiçam tokens.

OpenClaw WhatsApp Auto-Resposta Pode Ignorar Compreensão de Mídia na Versão 2026.4.2
Um usuário relata que o fluxo de resposta automática do WhatsApp do OpenClaw 2026.4.2 pode pular o pipeline de compreensão de mídia, impedindo a transcrição de notas de voz ao usar backends de STT externos como o Groq. A correção envolve chamar explicitamente a compreensão de mídia antes do despacho do agente.

7 Bugs do Gateway MCP: Vazamentos de Sessão, SSE Morta e OAuth no Modo Gateway
Uma postagem no Reddit detalha sete bugs reais de gateway MCP — vazamento de estado de sessão entre clientes, desconexões silenciosas de SSE, falhas de OAuth em modo gateway e mais — com correções baseadas em infraestrutura robusta, não em prompts melhores.