CLAUDE.md: Arquivo de substituição reduz tokens de saída do Claude em 63%

O que o CLAUDE.md faz
CLAUDE.md é um único arquivo que você coloca na raiz do seu projeto. Quando o Claude Code o lê, o comportamento muda imediatamente sem modificações no código. Ele visa especificamente o comportamento de saída: bajulação, verbosidade e ruído de formatação.
O problema que ele aborda
Por padrão, o Claude desperdiça tokens em comportamentos que não agregam valor:
- Abre respostas com "Claro!", "Ótima pergunta!", "Absolutamente!"
- Termina com "Espero que isso ajude! Avise se precisar de algo!"
- Usa travessões (--), aspas inteligentes, caracteres Unicode que quebram analisadores
- Repete sua pergunta antes de responder
- Adiciona sugestões não solicitadas além do que você pediu
- Sobreprojeta código com abstrações desnecessárias
- Concorda com declarações incorretas ("Você está absolutamente certo!")
Resultados de benchmark
Os mesmos 5 prompts testados sem CLAUDE.md (linha de base) e com CLAUDE.md (otimizado):
- Explicar async/await: 180 palavras → 65 palavras (redução de 64%)
- Revisão de código: 120 palavras → 30 palavras (redução de 75%)
- O que é uma API REST: 110 palavras → 55 palavras (redução de 50%)
- Correção de alucinação: 55 palavras → 20 palavras (redução de 64%)
- Total: 465 palavras → 170 palavras (redução de 63%)
Aproximadamente 384 tokens de saída salvos por 4 prompts. Nota: Este é um indicador direcional de 5 prompts, não um estudo estatisticamente controlado.
Quando ajuda vs. quando não ajuda
Funciona melhor para:
- Pipelines de automação com alto volume de saída (bots de currículo, loops de agentes, geração de código)
- Tarefas estruturadas repetidas onde a verbosidade padrão do Claude se acumula em centenas de chamadas
- Equipes que precisam de um formato de saída consistente e analisável entre sessões
Não vale a pena para:
- Consultas únicas curtas (o arquivo carrega no contexto em cada mensagem, causando aumento líquido de tokens em trocas de baixa saída)
- Uso casual pontual (a sobrecarga não compensa em baixo volume)
- Corrigir modos de falha profundos como implementações alucinadas ou deriva arquitetural
- Pipelines usando múltiplas sessões novas por tarefa
- Confiabilidade do analisador em escala (use saídas estruturadas como modo JSON em vez disso)
- Trabalho exploratório ou arquitetural onde debate e alternativas são o objetivo
Considerações de custo
O próprio arquivo CLAUDE.md consome tokens de entrada em cada mensagem. A economia vem da redução dos tokens de saída. O benefício líquido é positivo apenas quando o volume de saída é alto o suficiente para compensar o custo persistente de entrada. Em baixo uso, custa mais do que economiza.
Suporte a modelos
Os benchmarks foram executados apenas no Claude. As regras são independentes do modelo e devem funcionar em qualquer modelo que leia contexto, mas os resultados em modelos locais como llama.cpp, Mistral ou outros não foram testados.
📖 Read the full source: HN AI Agents
👀 See Also
Memória Multi-Agente: Sistema de Memória Compartilhada de Código Aberto para Agentes de IA
Multi-Agent Memory é um projeto de código aberto que fornece um sistema de memória compartilhada para agentes de IA em diferentes máquinas, ferramentas e frameworks. Ele suporta quatro tipos distintos de memória com comportamentos específicos e inclui recursos como limpeza de credenciais, isolamento de agentes e consolidação de LLM.

Calibre: Ferramenta CLI local gera configurações de assistente de IA para programação a partir do seu repositório
Caliber é uma ferramenta CLI local-first que escaneia repositórios em linguagens como TypeScript, Python, Go e Rust, e então gera arquivos de prompt e configuração para assistentes de codificação de IA, incluindo Claude Code, Cursor e Codex. Ele roda inteiramente na sua máquina com suas próprias chaves, tem 13k instalações no npm e é de código aberto sob licença MIT.

wmux: Multiplexador de Terminal Electron para Windows com Controle de Navegador via MCP
wmux é um multiplexador de terminal Electron de código aberto para Windows 10/11 que oferece divisões estilo tmux, sessões persistentes e controle de navegador via Chrome DevTools Protocol para agentes de IA de codificação como o Claude Code. Ele se registra automaticamente como um servidor MCP e permite que os agentes interajam com navegadores enquanto executam múltiplas sessões lado a lado.

Implementando um Assistente de Voz Local com Qwen3 em RTX 5060 Ti
Um assistente de voz de automação residencial totalmente local usando Qwen3 ASR, LLM e TTS em uma RTX 5060 Ti, com clonagem de voz do Morgan Freeman e uma variedade de ferramentas de integração.