monge: Uma habilidade que silencia a narração do agente para economizar contexto e tokens

Um usuário do Reddit criou monk, uma habilidade que faz agentes de IA trabalharem em silêncio — removendo narração, preâmbulos, posâmbulos e comentários de progresso das respostas, mantendo apenas os resultados. O efeito é uma redução estimada de 54% nos tokens de saída por turno (47% codificação, 65% chat, 54% pesquisa), e economia de contexto que se acumula com o comprimento da sessão.
Como funciona
monk suprime toda narração do tipo "Agora estou fazendo X...", widgets de lista de tarefas e pings de status. O agente só gera resultados padrão ao final de cada etapa. A habilidade está disponível no GitHub: github.com/marpxxx/skillz/tree/main/monk.
Resultados de benchmark
Testes usaram 30 tarefas (10 por categoria: codificação, chat, pesquisa) com verbosidade aproximada via tokenizador cl100k_base da OpenAI. Números principais:
- Economia de saída por turno: Codificação 47%, Chat 65%, Pesquisa 54%, Geral 54%.
- Ganho de capacidade de contexto (acumulado): Com ~20 rodadas (sessão típica), +13% (codificação), +14% (chat), +20% (pesquisa). Com 100 rodadas, +29% (codificação), +36% (chat), +39% (pesquisa).
- Custo de API (Claude Sonnet 4.6, cache de prompt): ~19% de economia em uma sessão de 10 rodadas.
O teste não contou tokens suprimidos em widgets de ferramentas ou pings de status, então as economias reais podem ser maiores.
Ressalvas
As amostras verbosas são aproximações geradas por IA. Um agente base bem ajustado já pode ser mais sucinto; um agente verboso com habilidades com muita narração pode gerar mais. O tokenizador é o cl100k_base da OpenAI, não o da Anthropic. A suposição de prompt de sistema de 8k é conservadora (muitas configurações têm 15-30k). Os resultados são estimativas direcionais, não benchmarks de produção.
Para desenvolvedores que raramente leem a saída do agente em tempo real, essa habilidade pode reduzir ruído e esticar significativamente a janela de contexto.
📖 Leia a fonte completa: r/ClaudeAI
👀 See Also

CAL: Camada de Otimização de Contexto de Código Aberto para Agentes de LLM
CAL (Context Assembly Layer) é uma biblioteca Python que reduz o uso de tokens da API Claude em 83% através de seleção e compressão inteligente de contexto. Está disponível via pip install e licenciada sob MIT.

Black LLAB: Arquitetura de Código Aberto para Roteamento Dinâmico de Modelos e Agentes de IA em Sandbox Docker
Um desenvolvedor disponibilizou em código aberto o Black LLAB, um sistema que utiliza o Mistral 3B para direcionar prompts entre modelos locais e na nuvem e executa agentes de IA em contêineres Docker isolados com integração OpenClaw.

Galeria de Arquitetura de LLM: Referência Visual para Projetos de Modelos
A Galeria de Arquitetura de LLMs de Sebastian Raschka reúne figuras de arquitetura e fichas técnicas de The Big LLM Architecture Comparison e A Dream of Spring for Open-Weight LLMs, com especificações detalhadas para modelos como Llama 3 8B, DeepSeek V3 e Gemma 3 27B.

LLM Matrix: Comparações de Modelos Votadas pela Comunidade Criadas com Claude Code
Um cientista de dados criou llm-matrix.vercel.app para comparar pontuações de LLMs em múltiplas dimensões simultaneamente, com votos da comunidade moldando os rankings. O site foi desenvolvido inteiramente usando Claude Code com dois plugins específicos.