Agentes Subordinados Paralelos no Claude Code: Quando Eles Economizam vs. Queimam Tokens

Os números da Anthropic frequentemente ignorados no hype "use subagentes!": sistemas multiagente consomem cerca de 15× mais tokens que um chat único e são "menos eficazes para tarefas rigidamente interdependentes, como codificação" (fonte). No entanto, tokens em cache custam apenas 10% do normal (90% de desconto) — mas apenas se o conteúdo sinalizado para cache for idêntico entre as requisições (fonte).
Multiagente multiplica o uso de tokens por 15. O cache divide por 10. Se subagentes economizam ou queimam dinheiro depende de uma coisa: todos os subagentes compartilham o mesmo prefixo?
Três Formas de Delegar, Ordenadas por Custo
- 1. Subagente com
subagent_typedefinido. Prompt de sistema personalizado, ferramentas personalizadas, permissões personalizadas (Anthropic). Prompt diferente = cache diferente. Sem compartilhamento com o pai. Preço total a cada criação. Use quando precisar de isolamento. - 2. Clone que herda do pai. Sem
subagent_type. Herda exatamente o prompt, ferramentas e histórico do pai. Filhos 2..N acessam o cache a 10% do preço. Cinco clones lendo arquivos em paralelo ≈ 5× velocidade a ~1,5× custo. - 3. Sem subagente. Permaneça no agente principal. Mais barato por turno. Resposta certa quando o trabalho depende de si mesmo — refatorações onde o passo 2 precisa do resultado do passo 1.
Quando NÃO Delegar (a Própria Linha da Anthropic)
"Melhor para tarefas que podem ser divididas em vertentes paralelas de pesquisa." Tradução:
- Bom: ler 7 arquivos em paralelo, auditar pastas por um padrão, coletar informações de várias fontes.
- Ruim: refatorar um módulo, corrigir um bug onde cada etapa depende da anterior. Apenas agente principal.
Se você dividir trabalho fortemente acoplado em subagentes, paga 15× e não ganha nada.
O que Quebra o Cache
Anthropic: editar definições de ferramentas, trocar de modelos, adicionar ou remover imagens, ou alterar a estrutura anterior do prompt quebra o prefixo em cache (fonte). Então:
- Instale seus MCPs no início da sessão, não no meio.
- Escolha o modelo de antemão.
- Não edite
CLAUDE.mdou memória automática no meio da sessão — eles vivem dentro do prefixo em cache.
📖 Leia a fonte completa: r/ClaudeAI
👀 See Also

EsoLang-Bench: Um Benchmark de Codificação Usando Linguagens Esotéricas para Testar o Raciocínio de LLM
Pesquisadores criaram o EsoLang-Bench, um benchmark de programação que usa linguagens de programação esotéricas como Brainfuck e Whitespace para testar se os LLMs conseguem raciocinar ou apenas fazer correspondência de padrões. O melhor resultado entre GPT-5.2, O4-mini, Gemini, Qwen e Kimi foi de 11,2%.

Reduza os custos de sessão de codificação de IA em 90% com indexação de código baseada em gráficos
Um desenvolvedor construiu um banco de dados gráfico local que indexa uma base de código usando resumos gerados por LLM, reduzindo os custos das sessões do Claude Code de $6-10 para centavos, evitando a releitura redundante de arquivos.

Por que uma Ferramenta run() Única com Comandos Unix Supera a Chamada de Funções para Agentes de IA
Um líder de backend com dois anos de experiência na construção de agentes argumenta que uma única ferramenta run(command="...") com comandos CLI no estilo Unix supera os catálogos tradicionais de chamada de funções. A abordagem aproveita a familiaridade existente dos LLMs com comandos de shell a partir dos dados de treinamento.

Codegraph: Grafo de conhecimento pré-indexado reduz chamadas de ferramentas Claude/Cursor em 94%
Codegraph usa um grafo de conhecimento pré-indexado de relações de símbolos, grafos de chamada e estrutura de código para reduzir chamadas de ferramentas da API em até 94% e acelerar o uso em ~77% para agentes Claude, Cursor, Codex e OpenCode.