Reduza Tokens de Saída do Claude em 63% com CLAUDE.md

O que o CLAUDE.md faz

CLAUDE.md é um único arquivo que você coloca na raiz do seu projeto. Quando o Claude Code o lê, o comportamento muda imediatamente sem modificações no código. Ele visa especificamente o comportamento de saída: bajulação, verbosidade e ruído de formatação.

O problema que ele aborda

Por padrão, o Claude desperdiça tokens em comportamentos que não agregam valor:

Abre respostas com "Claro!", "Ótima pergunta!", "Absolutamente!"
Termina com "Espero que isso ajude! Avise se precisar de algo!"
Usa travessões (--), aspas inteligentes, caracteres Unicode que quebram analisadores
Repete sua pergunta antes de responder
Adiciona sugestões não solicitadas além do que você pediu
Sobreprojeta código com abstrações desnecessárias
Concorda com declarações incorretas ("Você está absolutamente certo!")

Resultados de benchmark

Os mesmos 5 prompts testados sem CLAUDE.md (linha de base) e com CLAUDE.md (otimizado):

Explicar async/await: 180 palavras → 65 palavras (redução de 64%)
Revisão de código: 120 palavras → 30 palavras (redução de 75%)
O que é uma API REST: 110 palavras → 55 palavras (redução de 50%)
Correção de alucinação: 55 palavras → 20 palavras (redução de 64%)
Total: 465 palavras → 170 palavras (redução de 63%)

Aproximadamente 384 tokens de saída salvos por 4 prompts. Nota: Este é um indicador direcional de 5 prompts, não um estudo estatisticamente controlado.

Quando ajuda vs. quando não ajuda

Funciona melhor para:

Pipelines de automação com alto volume de saída (bots de currículo, loops de agentes, geração de código)
Tarefas estruturadas repetidas onde a verbosidade padrão do Claude se acumula em centenas de chamadas
Equipes que precisam de um formato de saída consistente e analisável entre sessões

Não vale a pena para:

Consultas únicas curtas (o arquivo carrega no contexto em cada mensagem, causando aumento líquido de tokens em trocas de baixa saída)
Uso casual pontual (a sobrecarga não compensa em baixo volume)
Corrigir modos de falha profundos como implementações alucinadas ou deriva arquitetural
Pipelines usando múltiplas sessões novas por tarefa
Confiabilidade do analisador em escala (use saídas estruturadas como modo JSON em vez disso)
Trabalho exploratório ou arquitetural onde debate e alternativas são o objetivo

Considerações de custo

O próprio arquivo CLAUDE.md consome tokens de entrada em cada mensagem. A economia vem da redução dos tokens de saída. O benefício líquido é positivo apenas quando o volume de saída é alto o suficiente para compensar o custo persistente de entrada. Em baixo uso, custa mais do que economiza.

Suporte a modelos

Os benchmarks foram executados apenas no Claude. As regras são independentes do modelo e devem funcionar em qualquer modelo que leia contexto, mas os resultados em modelos locais como llama.cpp, Mistral ou outros não foram testados.

📖 Read the full source: HN AI Agents

CLAUDE.md: Arquivo de substituição reduz tokens de saída do Claude em 63%

O que o CLAUDE.md faz

O problema que ele aborda

Resultados de benchmark

Quando ajuda vs. quando não ajuda

Considerações de custo

Suporte a modelos

👀 See Also

Memória Multi-Agente: Sistema de Memória Compartilhada de Código Aberto para Agentes de IA

Calibre: Ferramenta CLI local gera configurações de assistente de IA para programação a partir do seu repositório

wmux: Multiplexador de Terminal Electron para Windows com Controle de Navegador via MCP

Implementando um Assistente de Voz Local com Qwen3 em RTX 5060 Ti