Os frameworks de agentes desperdiçam mais de 350.000 tokens por sessão ao reenviar arquivos estáticos.

✍️ OpenClawRadar📅 Publicado: April 13, 2026🔗 Source

Resultados do benchmark de desperdício de tokens

Medições em uma configuração local do Qwen 3.5 122B revelaram que frameworks de agentes desperdiçam mais de 350.000 tokens por sessão ao reenviar repetidamente arquivos estáticos. A fonte descreve esses números como "irreais".

Abordagem de otimização

Foi descoberta uma abordagem de tempo de compilação que reduz o contexto da consulta de 1.373 tokens para apenas 73 tokens. Isso representa uma redução de 95% no uso de tokens para este contexto específico.

O benchmark também descobriu que a conversão ingênua de JSON torna o problema 30% pior, aumentando o desperdício de tokens além das medições de referência.

Contexto técnico

Frameworks de agentes normalmente incluem prompts do sistema, definições de ferramentas e outros dados de configuração que permanecem estáticos em múltiplas interações dentro de uma sessão. Quando esses dados são reenviados a cada consulta, eles consomem tokens sem fornecer novas informações ao modelo. Isso é particularmente custoso com modelos grandes como o Qwen 3.5 122B, onde o processamento de tokens impacta diretamente tanto o desempenho quanto o custo.

A abordagem de tempo de compilação provavelmente envolve pré-processar elementos estáticos para que sejam referenciados em vez de reenviados, semelhante a como aplicações web modernas armazenam em cache ativos estáticos. Para desenvolvedores que trabalham com agentes de codificação de IA, reduzir essa sobrecarga pode melhorar significativamente os tempos de resposta e reduzir custos operacionais.

📖 Read the full source: r/LocalLLaMA

👀 See Also

Tools

Sitefire automatiza a otimização de busca por IA com agentes de conteúdo

A plataforma da Sitefire monitora os resultados de buscas de IA, analisa quais páginas são citadas e usa agentes de conteúdo para rascunhar melhorias ou criar novas páginas que são enviadas diretamente para o CMS dos clientes. Um cliente viu as solicitações de bots de IA aumentarem de ~200/dia para ~570/dia em dez dias.

Mar 20, 2026, 08:45 PM UTC

OpenClawRadar

Tools

Qwen 3.6 27B alcança velocidade 2,5x com decodificação especulativa MTP no llama.cpp

Um usuário do Reddit relata inferência 2,5x mais rápida no Qwen 3.6 27B usando decodificação especulativa MTP com um PR personalizado do llama.cpp, alcançando 28 tok/s no Mac M2 Max 96GB. Inclui quants GGUF pré-convertidos e templates de chat corrigidos.

May 6, 2026, 12:18 PM UTC

OpenClawRadar

Tools

blend-ai: Novo Serviço MCP do Blender para Claude Code

blend-ai é um novo serviço MCP do Blender que permite ao Claude Code gerar cenas 3D. Um usuário relatou que funcionou mais rápido e melhor que o blender-mcp, criando uma cena de lançamento de ônibus espacial a partir de imagens de referência em 5 minutos.

Apr 19, 2026, 07:45 AM UTC

OpenClawRadar

Tools

MAGELLAN: Um Sistema Autônomo de Descoberta Científica com 15 Agentes Baseado no Claude Code

MAGELLAN é um sistema autônomo de descoberta científica com 15 agentes, construído inteiramente no Claude Code. Ele usa o Opus para raciocínio profundo e o Sonnet para tarefas estruturadas, gerando hipóteses interdisciplinares sem direção humana, com 260 hipóteses propostas e 60% eliminadas por validação adversária em 19 sessões.

Mar 30, 2026, 04:45 AM UTC

OpenClawRadar