La arquitectura de doble modelo reduce el consumo de tokens a la mitad en conversaciones largas.

Sistema de compresión de contexto para agentes de IA
Un desarrollador en r/ClaudeAI compartió una solución al problema de que los agentes de IA pierden contexto después de la compactación de conversaciones. El sistema utiliza una arquitectura de doble modelo donde un modelo pequeño y económico (llamado el "subconsciente") comprime continuamente el historial de conversación en segundo plano.
Detalles de la arquitectura
El sistema tiene cuatro capas:
- Resumen narrativo (~1K tokens)
- Factoides comprimidos
- Citas textuales recuperadas semánticamente
- Turnos recientes crudos
El modelo principal ("consciente") recibe un contexto curado de ~35K tokens con la misma densidad de información que normalmente requeriría 120K tokens de historial crudo. El modelo principal lee una línea de tiempo coherente y no sabe que existe el sistema de memoria.
Resultados de rendimiento
El desarrollador simuló 260 turnos en diferentes tipos de conversaciones. Para trabajos de proyecto sostenidos (comenzando con investigación intensiva y cambiando gradualmente a intercambios rápidos a medida que el modelo aprende el dominio), el sistema reduce aproximadamente a la mitad el consumo de tokens.
Herramientas de desarrollo
El sistema fue construido con Claude Code para la simulación y Claude.ai en la etapa de consultoría e investigación. El desarrollador busca a otros que hayan intentado enrutar un modelo más pequeño para gestionar el contexto de uno más grande o hayan encontrado otras soluciones para el problema de compactación.
📖 Read the full source: r/ClaudeAI
👀 Ver también

Operaciones de Fundador en Claude: 19 Habilidades Reutilizables para Startups en Etapa Temprana
Un fundador que vendió su primera startup publicó 19 prompts de habilidades compatibles con Claude para funciones como posicionamiento, precios, prospección y redacción, basados en sus propios SOP y flujos de trabajo de Notion.

StarSteady: respuestas de reseñas de Google con IA y solicitudes de SMS para negocios locales
StarSteady es un SaaS creado por una sola persona que genera respuestas elaboradas por IA para reseñas de Google/Yelp y envía solicitudes de reseñas por SMS a los clientes, desde $39/mes con una prueba gratuita de 5 respuestas/5 SMS.

OCTO-VEC: Empresa de software virtual de código abierto con 24 agentes de IA.
OCTO-VEC es un proyecto de código abierto en TypeScript/SQLite que simula una empresa de software con 9 agentes de IA predeterminados y 15 especialistas contratables. Incluye escaneo de seguridad automatizado, identidades git por agente y soporta más de 22 proveedores de LLM.

Claude Code Modo Ultracódigo Genera un Pipeline de 70 Agentes para Búsqueda Profunda
Una sola solicitud de 'deep search' en el modo ultracode de Claude Code generó automáticamente un pipeline de 4 fases con ~70 agentes, cada uno obteniendo y cotejando proyectos de forma independiente. El script orquestador mantiene los resultados intermedios fuera de la ventana de contexto, evitando la sobrecarga.