La arquitectura de doble modelo reduce el consumo de tokens a la mitad en conversaciones largas.

Sistema de compresión de contexto para agentes de IA
Un desarrollador en r/ClaudeAI compartió una solución al problema de que los agentes de IA pierden contexto después de la compactación de conversaciones. El sistema utiliza una arquitectura de doble modelo donde un modelo pequeño y económico (llamado el "subconsciente") comprime continuamente el historial de conversación en segundo plano.
Detalles de la arquitectura
El sistema tiene cuatro capas:
- Resumen narrativo (~1K tokens)
- Factoides comprimidos
- Citas textuales recuperadas semánticamente
- Turnos recientes crudos
El modelo principal ("consciente") recibe un contexto curado de ~35K tokens con la misma densidad de información que normalmente requeriría 120K tokens de historial crudo. El modelo principal lee una línea de tiempo coherente y no sabe que existe el sistema de memoria.
Resultados de rendimiento
El desarrollador simuló 260 turnos en diferentes tipos de conversaciones. Para trabajos de proyecto sostenidos (comenzando con investigación intensiva y cambiando gradualmente a intercambios rápidos a medida que el modelo aprende el dominio), el sistema reduce aproximadamente a la mitad el consumo de tokens.
Herramientas de desarrollo
El sistema fue construido con Claude Code para la simulación y Claude.ai en la etapa de consultoría e investigación. El desarrollador busca a otros que hayan intentado enrutar un modelo más pequeño para gestionar el contexto de uno más grande o hayan encontrado otras soluciones para el problema de compactación.
📖 Read the full source: r/ClaudeAI
👀 Ver también

El Método de Cuantización JANG Mejora el Rendimiento de MLX para Modelos Grandes
Un nuevo método de cuantización llamado JANG permite ejecutar modelos grandes como MiniMax-M2.5 y Qwen 3.5 en el framework MLX de Apple con un rendimiento significativamente mejor que la cuantización estándar de MLX, logrando velocidades casi nativas mientras mantiene una precisión comparable a las cuantizaciones de mayor número de bits.

Habla con Claw: Interfaz de Voz de iOS de Código Abierto para Bots de Telegram OpenClaw
Una aplicación iOS de código abierto que permite la interacción por voz con bots de Telegram impulsados por OpenClaw. La aplicación envía audio a un servidor Mac local para su procesamiento, y las respuestas se devuelven tanto en texto como en audio.

La Nueva API de Datos Estructurados Ofrece Precios por Suscripción para Agentes de LLM
Un desarrollador ha lanzado una API de datos estructurados que normaliza los precios de suscripción en plataformas de streaming, servicios de transporte compartido, aplicaciones de citas y otras plataformas basadas en suscripción. La API proporciona esquemas JSON consistentes, precios conscientes de la región cuando están disponibles y endpoints compatibles con MCP para que los agentes de LLM los consuman sin necesidad de scraping.

Revisión de la aplicación de productividad Dart AI con integración de OpenClaw
Un usuario informa haber cambiado de Things a Dart AI para la productividad, encontrándolo mejor para implementar la metodología Getting Things Done con acceso completo a OpenClaw, a pesar de problemas con la interfaz y la complejidad inicial de configuración.