La arquitectura de doble modelo reduce el consumo de tokens a la mitad en conversaciones largas.

✍️ OpenClawRadar📅 Publicado: 9 de marzo de 2026🔗 Source
La arquitectura de doble modelo reduce el consumo de tokens a la mitad en conversaciones largas.
Ad

Sistema de compresión de contexto para agentes de IA

Un desarrollador en r/ClaudeAI compartió una solución al problema de que los agentes de IA pierden contexto después de la compactación de conversaciones. El sistema utiliza una arquitectura de doble modelo donde un modelo pequeño y económico (llamado el "subconsciente") comprime continuamente el historial de conversación en segundo plano.

Detalles de la arquitectura

El sistema tiene cuatro capas:

  • Resumen narrativo (~1K tokens)
  • Factoides comprimidos
  • Citas textuales recuperadas semánticamente
  • Turnos recientes crudos

El modelo principal ("consciente") recibe un contexto curado de ~35K tokens con la misma densidad de información que normalmente requeriría 120K tokens de historial crudo. El modelo principal lee una línea de tiempo coherente y no sabe que existe el sistema de memoria.

Ad

Resultados de rendimiento

El desarrollador simuló 260 turnos en diferentes tipos de conversaciones. Para trabajos de proyecto sostenidos (comenzando con investigación intensiva y cambiando gradualmente a intercambios rápidos a medida que el modelo aprende el dominio), el sistema reduce aproximadamente a la mitad el consumo de tokens.

Herramientas de desarrollo

El sistema fue construido con Claude Code para la simulación y Claude.ai en la etapa de consultoría e investigación. El desarrollador busca a otros que hayan intentado enrutar un modelo más pequeño para gestionar el contexto de uno más grande o hayan encontrado otras soluciones para el problema de compactación.

📖 Read the full source: r/ClaudeAI

Ad

👀 Ver también

El Método de Cuantización JANG Mejora el Rendimiento de MLX para Modelos Grandes
Herramientas

El Método de Cuantización JANG Mejora el Rendimiento de MLX para Modelos Grandes

Un nuevo método de cuantización llamado JANG permite ejecutar modelos grandes como MiniMax-M2.5 y Qwen 3.5 en el framework MLX de Apple con un rendimiento significativamente mejor que la cuantización estándar de MLX, logrando velocidades casi nativas mientras mantiene una precisión comparable a las cuantizaciones de mayor número de bits.

OpenClawRadar
Habla con Claw: Interfaz de Voz de iOS de Código Abierto para Bots de Telegram OpenClaw
Herramientas

Habla con Claw: Interfaz de Voz de iOS de Código Abierto para Bots de Telegram OpenClaw

Una aplicación iOS de código abierto que permite la interacción por voz con bots de Telegram impulsados por OpenClaw. La aplicación envía audio a un servidor Mac local para su procesamiento, y las respuestas se devuelven tanto en texto como en audio.

OpenClawRadar
La Nueva API de Datos Estructurados Ofrece Precios por Suscripción para Agentes de LLM
Herramientas

La Nueva API de Datos Estructurados Ofrece Precios por Suscripción para Agentes de LLM

Un desarrollador ha lanzado una API de datos estructurados que normaliza los precios de suscripción en plataformas de streaming, servicios de transporte compartido, aplicaciones de citas y otras plataformas basadas en suscripción. La API proporciona esquemas JSON consistentes, precios conscientes de la región cuando están disponibles y endpoints compatibles con MCP para que los agentes de LLM los consuman sin necesidad de scraping.

OpenClawRadar
Revisión de la aplicación de productividad Dart AI con integración de OpenClaw
Herramientas

Revisión de la aplicación de productividad Dart AI con integración de OpenClaw

Un usuario informa haber cambiado de Things a Dart AI para la productividad, encontrándolo mejor para implementar la metodología Getting Things Done con acceso completo a OpenClaw, a pesar de problemas con la interfaz y la complejidad inicial de configuración.

OpenClawRadar