Os frameworks de agentes desperdiçam mais de 350.000 tokens por sessão ao reenviar arquivos estáticos.

Resultados do benchmark de desperdício de tokens
Medições em uma configuração local do Qwen 3.5 122B revelaram que frameworks de agentes desperdiçam mais de 350.000 tokens por sessão ao reenviar repetidamente arquivos estáticos. A fonte descreve esses números como "irreais".
Abordagem de otimização
Foi descoberta uma abordagem de tempo de compilação que reduz o contexto da consulta de 1.373 tokens para apenas 73 tokens. Isso representa uma redução de 95% no uso de tokens para este contexto específico.
O benchmark também descobriu que a conversão ingênua de JSON torna o problema 30% pior, aumentando o desperdício de tokens além das medições de referência.
Contexto técnico
Frameworks de agentes normalmente incluem prompts do sistema, definições de ferramentas e outros dados de configuração que permanecem estáticos em múltiplas interações dentro de uma sessão. Quando esses dados são reenviados a cada consulta, eles consomem tokens sem fornecer novas informações ao modelo. Isso é particularmente custoso com modelos grandes como o Qwen 3.5 122B, onde o processamento de tokens impacta diretamente tanto o desempenho quanto o custo.
A abordagem de tempo de compilação provavelmente envolve pré-processar elementos estáticos para que sejam referenciados em vez de reenviados, semelhante a como aplicações web modernas armazenam em cache ativos estáticos. Para desenvolvedores que trabalham com agentes de codificação de IA, reduzir essa sobrecarga pode melhorar significativamente os tempos de resposta e reduzir custos operacionais.
📖 Read the full source: r/LocalLLaMA
👀 See Also

Microsoft VibeVoice: Modelos ASR de 60 Min e TTS de 90 Min de Código Aberto
VibeVoice é uma família de modelos de voz IA de código aberto da Microsoft, incluindo ASR (passagem única de 60 minutos, diarização de falantes, mais de 50 idiomas) e TTS (90 minutos com múltiplos falantes, streaming em tempo real). Utiliza tokenizadores de fala contínuos de 7,5 Hz e difusão de próximo token.

Claude Operações: Painel de Navegador para Status ao Vivo e Rastreamento de Subagentes do Claude Code
Um painel gratuito e local para navegador macOS que rastreia o status ao vivo de sessões do Claude Code, ferramenta atual, subagentes gerados e envia notificações push do OS quando a entrada é necessária.

Pesquisadores de Stanford Lançam OpenJarvis: Uma Estrutura Local-First para Agentes de IA em Dispositivos
Pesquisadores de Stanford lançaram o OpenJarvis, um framework local-first para construir agentes de IA pessoais no dispositivo com ferramentas, memória e capacidades de aprendizado. O projeto inclui links para repositório no GitHub e site para desenvolvedores explorarem.

SprintiQ: Planejamento de Sprint Open-Source para Claude Code
SprintiQ é uma plataforma ágil de código aberto que atua como uma camada de orquestração para o Claude Code, oferecendo geração de histórias de usuário com IA, planejamento de sprints, acompanhamento de velocidade e uma CLI que sincroniza a atividade do git com sprints em tempo real.