La arquitectura de doble modelo reduce el consumo de tokens a la mitad en conversaciones largas.

✍️ OpenClawRadar📅 Publicado: 9 de marzo de 2026🔗 Source
La arquitectura de doble modelo reduce el consumo de tokens a la mitad en conversaciones largas.
Ad

Sistema de compresión de contexto para agentes de IA

Un desarrollador en r/ClaudeAI compartió una solución al problema de que los agentes de IA pierden contexto después de la compactación de conversaciones. El sistema utiliza una arquitectura de doble modelo donde un modelo pequeño y económico (llamado el "subconsciente") comprime continuamente el historial de conversación en segundo plano.

Detalles de la arquitectura

El sistema tiene cuatro capas:

  • Resumen narrativo (~1K tokens)
  • Factoides comprimidos
  • Citas textuales recuperadas semánticamente
  • Turnos recientes crudos

El modelo principal ("consciente") recibe un contexto curado de ~35K tokens con la misma densidad de información que normalmente requeriría 120K tokens de historial crudo. El modelo principal lee una línea de tiempo coherente y no sabe que existe el sistema de memoria.

Ad

Resultados de rendimiento

El desarrollador simuló 260 turnos en diferentes tipos de conversaciones. Para trabajos de proyecto sostenidos (comenzando con investigación intensiva y cambiando gradualmente a intercambios rápidos a medida que el modelo aprende el dominio), el sistema reduce aproximadamente a la mitad el consumo de tokens.

Herramientas de desarrollo

El sistema fue construido con Claude Code para la simulación y Claude.ai en la etapa de consultoría e investigación. El desarrollador busca a otros que hayan intentado enrutar un modelo más pequeño para gestionar el contexto de uno más grande o hayan encontrado otras soluciones para el problema de compactación.

📖 Read the full source: r/ClaudeAI

Ad

👀 Ver también

Operaciones de Fundador en Claude: 19 Habilidades Reutilizables para Startups en Etapa Temprana
Herramientas

Operaciones de Fundador en Claude: 19 Habilidades Reutilizables para Startups en Etapa Temprana

Un fundador que vendió su primera startup publicó 19 prompts de habilidades compatibles con Claude para funciones como posicionamiento, precios, prospección y redacción, basados en sus propios SOP y flujos de trabajo de Notion.

OpenClawRadar
StarSteady: respuestas de reseñas de Google con IA y solicitudes de SMS para negocios locales
Herramientas

StarSteady: respuestas de reseñas de Google con IA y solicitudes de SMS para negocios locales

StarSteady es un SaaS creado por una sola persona que genera respuestas elaboradas por IA para reseñas de Google/Yelp y envía solicitudes de reseñas por SMS a los clientes, desde $39/mes con una prueba gratuita de 5 respuestas/5 SMS.

OpenClawRadar
OCTO-VEC: Empresa de software virtual de código abierto con 24 agentes de IA.
Herramientas

OCTO-VEC: Empresa de software virtual de código abierto con 24 agentes de IA.

OCTO-VEC es un proyecto de código abierto en TypeScript/SQLite que simula una empresa de software con 9 agentes de IA predeterminados y 15 especialistas contratables. Incluye escaneo de seguridad automatizado, identidades git por agente y soporta más de 22 proveedores de LLM.

OpenClawRadar
Claude Code Modo Ultracódigo Genera un Pipeline de 70 Agentes para Búsqueda Profunda
Herramientas

Claude Code Modo Ultracódigo Genera un Pipeline de 70 Agentes para Búsqueda Profunda

Una sola solicitud de 'deep search' en el modo ultracode de Claude Code generó automáticamente un pipeline de 4 fases con ~70 agentes, cada uno obteniendo y cotejando proyectos de forma independiente. El script orquestador mantiene los resultados intermedios fuera de la ventana de contexto, evitando la sobrecarga.

OpenClawRadar