Os frameworks de agentes desperdiçam mais de 350.000 tokens por sessão ao reenviar arquivos estáticos.

✍️ OpenClawRadar📅 Publicado: April 13, 2026🔗 Source
Os frameworks de agentes desperdiçam mais de 350.000 tokens por sessão ao reenviar arquivos estáticos.
Ad

Resultados do benchmark de desperdício de tokens

Medições em uma configuração local do Qwen 3.5 122B revelaram que frameworks de agentes desperdiçam mais de 350.000 tokens por sessão ao reenviar repetidamente arquivos estáticos. A fonte descreve esses números como "irreais".

Abordagem de otimização

Foi descoberta uma abordagem de tempo de compilação que reduz o contexto da consulta de 1.373 tokens para apenas 73 tokens. Isso representa uma redução de 95% no uso de tokens para este contexto específico.

O benchmark também descobriu que a conversão ingênua de JSON torna o problema 30% pior, aumentando o desperdício de tokens além das medições de referência.

Ad

Contexto técnico

Frameworks de agentes normalmente incluem prompts do sistema, definições de ferramentas e outros dados de configuração que permanecem estáticos em múltiplas interações dentro de uma sessão. Quando esses dados são reenviados a cada consulta, eles consomem tokens sem fornecer novas informações ao modelo. Isso é particularmente custoso com modelos grandes como o Qwen 3.5 122B, onde o processamento de tokens impacta diretamente tanto o desempenho quanto o custo.

A abordagem de tempo de compilação provavelmente envolve pré-processar elementos estáticos para que sejam referenciados em vez de reenviados, semelhante a como aplicações web modernas armazenam em cache ativos estáticos. Para desenvolvedores que trabalham com agentes de codificação de IA, reduzir essa sobrecarga pode melhorar significativamente os tempos de resposta e reduzir custos operacionais.

📖 Read the full source: r/LocalLLaMA

Ad

👀 See Also

Microsoft VibeVoice: Modelos ASR de 60 Min e TTS de 90 Min de Código Aberto
Tools

Microsoft VibeVoice: Modelos ASR de 60 Min e TTS de 90 Min de Código Aberto

VibeVoice é uma família de modelos de voz IA de código aberto da Microsoft, incluindo ASR (passagem única de 60 minutos, diarização de falantes, mais de 50 idiomas) e TTS (90 minutos com múltiplos falantes, streaming em tempo real). Utiliza tokenizadores de fala contínuos de 7,5 Hz e difusão de próximo token.

OpenClawRadar
Claude Operações: Painel de Navegador para Status ao Vivo e Rastreamento de Subagentes do Claude Code
Tools

Claude Operações: Painel de Navegador para Status ao Vivo e Rastreamento de Subagentes do Claude Code

Um painel gratuito e local para navegador macOS que rastreia o status ao vivo de sessões do Claude Code, ferramenta atual, subagentes gerados e envia notificações push do OS quando a entrada é necessária.

OpenClawRadar
Pesquisadores de Stanford Lançam OpenJarvis: Uma Estrutura Local-First para Agentes de IA em Dispositivos
Tools

Pesquisadores de Stanford Lançam OpenJarvis: Uma Estrutura Local-First para Agentes de IA em Dispositivos

Pesquisadores de Stanford lançaram o OpenJarvis, um framework local-first para construir agentes de IA pessoais no dispositivo com ferramentas, memória e capacidades de aprendizado. O projeto inclui links para repositório no GitHub e site para desenvolvedores explorarem.

OpenClawRadar
SprintiQ: Planejamento de Sprint Open-Source para Claude Code
Tools

SprintiQ: Planejamento de Sprint Open-Source para Claude Code

SprintiQ é uma plataforma ágil de código aberto que atua como uma camada de orquestração para o Claude Code, oferecendo geração de histórias de usuário com IA, planejamento de sprints, acompanhamento de velocidade e uma CLI que sincroniza a atividade do git com sprints em tempo real.

OpenClawRadar