Claude Code Tokens: Auditoria Revela Custo Oculto de 45 Mil Tokens

Investigação sobre desperdício de tokens revela sobrecarga significativa

Um desenvolvedor realizou uma auditoria de 926 sessões do Claude Code após notar um consumo rápido de tokens após as mudanças nos limites de taxa da Anthropic. A investigação revelou que cada sessão do Claude Code começa com uma carga útil base de aproximadamente 45.000 tokens antes de qualquer entrada do usuário. Isso inclui prompts do sistema, definições de ferramentas, descrições de agentes, arquivos de memória, descrições de habilidades e esquemas MCP.

Na janela de contexto padrão de 200k, essa carga inicial de 45k representa mais de 20% do contexto disponível consumido antes de qualquer conversa começar. Como o Claude Code opera como um loop sem estado, todo esse contexto é reconstruído e reenviado a cada turno, tornando a sobrecarga inicial um custo recorrente.

Carregamento padrão de ferramentas consome tokens significativos

A auditoria descobriu que 20.000 tokens do contexto inicial vieram de definições de esquema de ferramentas do sistema. Por padrão, o Claude Code carrega o esquema JSON completo para cada ferramenta disponível no contexto no início da sessão, independentemente de essas ferramentas serem usadas ou não.

O desenvolvedor descobriu uma configuração chamada enable_tool_search que permite o carregamento adiado de ferramentas. Quando habilitada, essa configuração carrega apenas 6 ferramentas principais inicialmente e carrega o restante sob demanda, em vez de despejar todos os esquemas de ferramentas de uma vez.

Mudança de configuração gera economia imediata

Para habilitar o carregamento adiado de ferramentas, adicione isto ao seu settings.json:

{
  "env": {
    "ENABLE_TOOL_SEARCH": "true"
  }
}

Essa única mudança de configuração reduziu o contexto inicial de 45.000 para 20.000 tokens, com a sobrecarga de ferramentas do sistema caindo de 20.000 para 6.000 tokens. Isso economiza 14.000 tokens em cada turno de cada sessão.

Implicações de custo das configurações padrão

O desenvolvedor calculou o impacto dessa configuração em seu uso. Com sessões com média de 22 turnos, os 14.000 tokens extras por turno totalizaram 308.000 tokens desnecessários por sessão. Em 858 sessões, isso totalizou 264 milhões de tokens.

No preço de leitura de cache ($0,50/MTok), isso representou $132 em custos desnecessários. No entanto, como mais da metade dos turnos atingiram caches expirados (o que aciona o preço total de entrada em $5/MTok), o custo real foi estimado entre $132 e $1.300 apenas dessa configuração padrão.

Estratégias adicionais de otimização

O desenvolvedor também implementou outras otimizações que reduziram o contexto inicial em 4.000-5.000 tokens:

Aparar e retrabalhar arquivos markdown e de memória do CLAUDE
Consolidar descrições de habilidades
Desligar servidores MCP não utilizados
Apertar injeções de esquema de ganchos de memória

O Claude Code armazena conversas como arquivos JSONL localmente em ~/.claude/projects/, embora não haja uma maneira integrada de obter detalhamentos por sessão, custo por projeto ou categorias de despesas. O comando integrado /insights foi considerado insuficiente para diagnosticar desperdícios.

📖 Leia a fonte completa: r/ClaudeAI

A auditoria de tokens do Claude Code revela custos ocultos do carregamento padrão de ferramentas

Investigação sobre desperdício de tokens revela sobrecarga significativa

Carregamento padrão de ferramentas consome tokens significativos

Mudança de configuração gera economia imediata

Implicações de custo das configurações padrão

Estratégias adicionais de otimização

👀 See Also

Inchaço de tokens em frameworks de agentes: uma relação de entrada-saída de 500:1 é normal

Carregar todo servidor MCP em todo prompt silenciosamente destrói o orçamento de tokens

A Estrutura de Prompt que Corrigiu os Resumos de Grandes Relatórios em PDF do Claude AI

Correções no Harness de Verificação Resolvem o Problema de Execução do Plano do Claude