Los marcos de agentes desperdician más de 350,000 tokens por sesión al reenviar archivos estáticos.

Resultados de la prueba de referencia sobre desperdicio de tokens
Las mediciones en una configuración local de Qwen 3.5 122B revelaron que los marcos de agentes desperdician más de 350,000 tokens por sesión al reenviar repetidamente archivos estáticos. La fuente describe estos números como "irreales".
Enfoque de optimización
Se descubrió un enfoque en tiempo de compilación que reduce el contexto de consulta de 1,373 tokens a solo 73 tokens. Esto representa una reducción del 95% en el uso de tokens para este contexto específico.
La prueba de referencia también encontró que la conversión ingenua de JSON empeora el problema en un 30%, aumentando el desperdicio de tokens más allá de las mediciones de referencia.
Contexto técnico
Los marcos de agentes generalmente incluyen indicaciones del sistema, definiciones de herramientas y otros datos de configuración que permanecen estáticos en múltiples interacciones dentro de una sesión. Cuando estos datos se reenvían con cada consulta, consumen tokens sin proporcionar nueva información al modelo. Esto es particularmente costoso con modelos grandes como Qwen 3.5 122B, donde el procesamiento de tokens afecta directamente tanto el rendimiento como el costo.
El enfoque en tiempo de compilación probablemente implica preprocesar elementos estáticos para que se hagan referencia en lugar de reenviarse, similar a cómo las aplicaciones web modernas almacenan en caché activos estáticos. Para los desarrolladores que trabajan con agentes de codificación de IA, reducir esta sobrecarga puede mejorar significativamente los tiempos de respuesta y reducir los costos operativos.
📖 Read the full source: r/LocalLLaMA
👀 Ver también

Layerkit: Editor de Imágenes con IA con Capas Editables Desarrollado con Claude Code
Un desarrollador creó Layerkit, un editor de imágenes basado en IA que funciona en el navegador y genera escenas con capas editables para evitar tener que reescribir constantemente las indicaciones. La herramienta utiliza un proceso de IA de múltiples etapas donde un modelo de lenguaje planifica la composición, un modelo de imágenes genera la escena y otro modelo de lenguaje analiza la imagen real para colocar texto legible.

La Habilidad OpenClaw Reduce los Tokens del Árbol de Accesibilidad de 600K a 1.3K
Un desarrollador creó una habilidad de OpenClaw que utiliza clasificación de elementos basada en ML para podar árboles de accesibilidad, reduciendo slickdeals.com de ~598K tokens a ~1.3K tokens manteniendo solo los ~50 elementos accionables principales.

Flash-MoE: Ejecutando el Modelo Qwen de 397B Parámetros en MacBook Pro con C/Metal Puro
Flash-MoE es un motor de inferencia puro en C/Metal que ejecuta Qwen3.5-397B-A17B, un modelo Mixture-of-Experts de 397 mil millones de parámetros, en una MacBook Pro con 48 GB de RAM a 4.4+ tokens/segundo. El modelo de 209 GB se transmite desde el SSD a través de sombreadores de computación Metal personalizados, sin Python ni frameworks.

Navegando por los problemas de instalación de OpenClaw
Los usuarios enfrentan desafíos de instalación entre openclaw.ai y openclawd.ai, cada uno proporcionando diferentes comandos de configuración.