Plugin 'Be Brief' vs 'Caveman': Benchmark de Compressão no Claude Code

Max Taylor comparou o popular plugin de compressão 'caveman' do Claude Code com uma linha de base trivial: adicionar 'seja breve.' a cada prompt. Os resultados são surpreendentemente planos — mas revelam onde o plugin realmente entrega valor.

Metodologia do benchmark

24 prompts em seis categorias (diagnóstico de bugs, explicação de conceitos, trade-offs de arquitetura, configuração em múltiplas etapas, operações de segurança/destrutivas, interpretação de erros). Cada prompt tinha uma rubrica com pontos-chave exigidos, termos exigidos e afirmações proibidas. Cinco braços foram testados: linha de base (sem instrução), 'seja breve.', e caveman em três níveis de intensidade (lite, full, ultra). Todos executados via claude -p no claude-opus-4-7. As respostas foram avaliadas pelo claude-sonnet-4-6 de acordo com a rubrica.

Resultados de qualidade

Todos os braços pontuaram dentro de 1,5% um do outro:

Linha de base: 0,985
Breve: 0,985
Lite: 0,976
Full: 0,975
Ultra: 0,970

Todos os braços atingiram 100% dos pontos-chave. Nenhuma afirmação proibida foi acionada em 120 respostas. A compressão não eliminou conteúdo substancial.

Contagens de tokens

Braço	Média de tokens
Linha de base	636
Breve	419 (redução de 34%)
Lite	401
Full	404
Ultra	449

'Seja breve.' reduziu os tokens em 34% em relação à linha de base. Caveman lite e full ficaram próximos de breve. Ultra, o modo mais estrito, produziu as respostas mais longas entre os três — mas a divisão por categoria conta uma história diferente.

A divisão por categoria revela o design do caveman

Em diagnósticos de bugs, explicações de conceitos, trade-offs de arquitetura e interpretação de erros, ultra é o mais curto ou empata. A compressão funciona conforme o esperado. Em configuração em múltiplas etapas e avisos de segurança, todos os modos caveman mostram contagens de tokens mais altas. A razão: a regra 'Auto-Clarity' do caveman desativa explicitamente a compressão para avisos de segurança, ações irreversíveis e sequências em múltiplas etapas. O escape de segurança é ativado e a compressão para — por design.

Então para que serve o caveman?

Se 'seja breve.' iguala em tokens e qualidade, o valor do plugin é estrutural:

Forma consistente da saída — cada resposta segue o mesmo padrão, útil para ferramentas downstream ou sensação uniforme na sessão.
Controle de intensidade — comandos de barra para alternar entre lite/full/ultra no meio da sessão.
Persistência em sessões longas — o caveman reinsere seu conjunto de regras via hooks SessionStart e UserPromptSubmit para evitar desvios (não testado neste benchmark de disparo único).

O conjunto de dados completo e o harness são open source.

📖 Leia a fonte completa: HN AI Agents