Plugin "Be brief" supera "caveman" no benchmark de compressão do Claude Code

Max Taylor comparou o popular plugin de compressão 'caveman' do Claude Code com uma linha de base trivial: adicionar 'seja breve.' a cada prompt. Os resultados são surpreendentemente planos — mas revelam onde o plugin realmente entrega valor.
Metodologia do benchmark
24 prompts em seis categorias (diagnóstico de bugs, explicação de conceitos, trade-offs de arquitetura, configuração em múltiplas etapas, operações de segurança/destrutivas, interpretação de erros). Cada prompt tinha uma rubrica com pontos-chave exigidos, termos exigidos e afirmações proibidas. Cinco braços foram testados: linha de base (sem instrução), 'seja breve.', e caveman em três níveis de intensidade (lite, full, ultra). Todos executados via claude -p no claude-opus-4-7. As respostas foram avaliadas pelo claude-sonnet-4-6 de acordo com a rubrica.
Resultados de qualidade
Todos os braços pontuaram dentro de 1,5% um do outro:
- Linha de base: 0,985
- Breve: 0,985
- Lite: 0,976
- Full: 0,975
- Ultra: 0,970
Todos os braços atingiram 100% dos pontos-chave. Nenhuma afirmação proibida foi acionada em 120 respostas. A compressão não eliminou conteúdo substancial.
Contagens de tokens
| Braço | Média de tokens |
|---|---|
| Linha de base | 636 |
| Breve | 419 (redução de 34%) |
| Lite | 401 |
| Full | 404 |
| Ultra | 449 |
'Seja breve.' reduziu os tokens em 34% em relação à linha de base. Caveman lite e full ficaram próximos de breve. Ultra, o modo mais estrito, produziu as respostas mais longas entre os três — mas a divisão por categoria conta uma história diferente.
A divisão por categoria revela o design do caveman
Em diagnósticos de bugs, explicações de conceitos, trade-offs de arquitetura e interpretação de erros, ultra é o mais curto ou empata. A compressão funciona conforme o esperado. Em configuração em múltiplas etapas e avisos de segurança, todos os modos caveman mostram contagens de tokens mais altas. A razão: a regra 'Auto-Clarity' do caveman desativa explicitamente a compressão para avisos de segurança, ações irreversíveis e sequências em múltiplas etapas. O escape de segurança é ativado e a compressão para — por design.
Então para que serve o caveman?
Se 'seja breve.' iguala em tokens e qualidade, o valor do plugin é estrutural:
- Forma consistente da saída — cada resposta segue o mesmo padrão, útil para ferramentas downstream ou sensação uniforme na sessão.
- Controle de intensidade — comandos de barra para alternar entre lite/full/ultra no meio da sessão.
- Persistência em sessões longas — o caveman reinsere seu conjunto de regras via hooks
SessionStarteUserPromptSubmitpara evitar desvios (não testado neste benchmark de disparo único).
O conjunto de dados completo e o harness são open source.
📖 Leia a fonte completa: HN AI Agents
👀 See Also

Auto-co: Um Script Bash de 50 Linhas Que Transforma Código do Claude em Empresas de IA Autônomas
Auto-co é um script bash de 50 linhas que envolve a CLI do Claude Code em um loop, permitindo que ele funcione de forma autônoma com 14 agentes de IA desempenhando papéis como CEO, engenheiro e crítico. Ele construiu quatro produtos do zero, incluindo FormReply e Changelog.dev, a um custo total de US$ 268 em mais de 270 ciclos.

Skill Bill: Uma Estrutura de Governança Baseada em Markdown para Habilidades de Codificação em IA
Um desenvolvedor criou o Skill Bill, um framework de 44 habilidades de IA baseadas em Markdown para Kotlin, Android/KMP, PHP e Go que aborda problemas de gerenciamento de prompts como derivação de nomenclatura e lógica duplicada. Inclui habilidades de orquestração como 'feature-implement' que encadeiam 10-12 invocações de habilidades e sincroniza com Claude Code, Copilot, GLM e Codex.

OpenAlly: Assistente de IA Local para Android com Controle Telefônico
OpenAlly é um aplicativo Android que executa um assistente de IA localmente no seu telefone por meio de um processo Node.js embutido, com 51 habilidades integradas e capacidades de controle do telefone através do Aster companion. Ele se conecta a mais de 19 plataformas de mensagens e suporta 18 provedores de modelos com suas próprias chaves de API.

Equibles: Servidor MCP Auto-hospedado para Dados Financeiros dos EUA – Arquivos da SEC, 13F, Negociações de Insiders, FRED
Equibles é um servidor MCP de código aberto que extrai dados financeiros públicos dos EUA (arquivos da SEC, 13F, negociações de insiders/congressistas, dados de vendas a descoberto, FRED) e os expõe como ferramentas MCP para qualquer agente LLM local.