A auditoria de tokens do Claude Code revela custos ocultos do carregamento padrão de ferramentas

Investigação sobre desperdício de tokens revela sobrecarga significativa
Um desenvolvedor realizou uma auditoria de 926 sessões do Claude Code após notar um consumo rápido de tokens após as mudanças nos limites de taxa da Anthropic. A investigação revelou que cada sessão do Claude Code começa com uma carga útil base de aproximadamente 45.000 tokens antes de qualquer entrada do usuário. Isso inclui prompts do sistema, definições de ferramentas, descrições de agentes, arquivos de memória, descrições de habilidades e esquemas MCP.
Na janela de contexto padrão de 200k, essa carga inicial de 45k representa mais de 20% do contexto disponível consumido antes de qualquer conversa começar. Como o Claude Code opera como um loop sem estado, todo esse contexto é reconstruído e reenviado a cada turno, tornando a sobrecarga inicial um custo recorrente.
Carregamento padrão de ferramentas consome tokens significativos
A auditoria descobriu que 20.000 tokens do contexto inicial vieram de definições de esquema de ferramentas do sistema. Por padrão, o Claude Code carrega o esquema JSON completo para cada ferramenta disponível no contexto no início da sessão, independentemente de essas ferramentas serem usadas ou não.
O desenvolvedor descobriu uma configuração chamada enable_tool_search que permite o carregamento adiado de ferramentas. Quando habilitada, essa configuração carrega apenas 6 ferramentas principais inicialmente e carrega o restante sob demanda, em vez de despejar todos os esquemas de ferramentas de uma vez.
Mudança de configuração gera economia imediata
Para habilitar o carregamento adiado de ferramentas, adicione isto ao seu settings.json:
{
"env": {
"ENABLE_TOOL_SEARCH": "true"
}
}Essa única mudança de configuração reduziu o contexto inicial de 45.000 para 20.000 tokens, com a sobrecarga de ferramentas do sistema caindo de 20.000 para 6.000 tokens. Isso economiza 14.000 tokens em cada turno de cada sessão.
Implicações de custo das configurações padrão
O desenvolvedor calculou o impacto dessa configuração em seu uso. Com sessões com média de 22 turnos, os 14.000 tokens extras por turno totalizaram 308.000 tokens desnecessários por sessão. Em 858 sessões, isso totalizou 264 milhões de tokens.
No preço de leitura de cache ($0,50/MTok), isso representou $132 em custos desnecessários. No entanto, como mais da metade dos turnos atingiram caches expirados (o que aciona o preço total de entrada em $5/MTok), o custo real foi estimado entre $132 e $1.300 apenas dessa configuração padrão.
Estratégias adicionais de otimização
O desenvolvedor também implementou outras otimizações que reduziram o contexto inicial em 4.000-5.000 tokens:
- Aparar e retrabalhar arquivos markdown e de memória do CLAUDE
- Consolidar descrições de habilidades
- Desligar servidores MCP não utilizados
- Apertar injeções de esquema de ganchos de memória
O Claude Code armazena conversas como arquivos JSONL localmente em ~/.claude/projects/, embora não haja uma maneira integrada de obter detalhamentos por sessão, custo por projeto ou categorias de despesas. O comando integrado /insights foi considerado insuficiente para diagnosticar desperdícios.
📖 Leia a fonte completa: r/ClaudeAI
👀 See Also

Token Master: Conceito Arquitetônico para Economizar 30-70% nos Custos de Agentes de IA
Uma abordagem arquitetônica detalhada para roteamento inteligente multi-modelo que pode reduzir drasticamente o consumo de tokens.

Claude User compartilha prompt 'Não gerencie meus sentimentos' para feedback técnico direto
Um usuário do Claude recomenda definir um prompt específico nas preferências do usuário para reduzir o preâmbulo de validação e obter feedback técnico mais direto. O prompt instrui o Claude a pular as frases diplomáticas e fornecer críticas diretas sobre trabalhos técnicos e criativos.

Plugin OpenClaw Minimalismo: Ferramentas Principais Lidam com 95% das Tarefas
Um desenvolvedor executando o OpenClaw em produção relata que desabilitar plugins não essenciais e substituir os críticos por scripts simples resultou em inicialização 40% mais rápida, uso de memória 60% menor e zero atualizações quebradas ao longo de quatro meses.

100K Linhas de Rust com IA: Contratos, Desenvolvimento Orientado por Especificações e Performance
Cheng Huang construiu um motor multi-Paxos em Rust com agentes de IA, alcançando 300 mil operações/seg. Principais técnicas: contratos de código gerados por IA, desenvolvimento leve orientado por especificação e otimização agressiva.