Ctxpact: Proxy de Compactación de Contexto para LLMs Locales

✍️ OpenClawRadar📅 Publicado: 13 de abril de 2026🔗 Source
Ctxpact: Proxy de Compactación de Contexto para LLMs Locales
Ad

Ctxpact es un proxy ligero compatible con OpenAI que se sitúa entre los agentes de IA y los LLMs locales para comprimir inteligentemente las entradas de gran tamaño antes de que lleguen a modelos con ventanas de contexto limitadas. Está diseñado para flujos de trabajo agentes como OpenClaw y Hermes que envían cargas útiles de más de 100k tokens a modelos con solo 16k de ventana de contexto, donde el truncamiento perdería información crítica.

Cómo funciona

El sistema utiliza una canalización de compactación de 3 etapas:

  • DCP (Poda Dinámica de Contexto): Elimina duplicados de llamadas a herramientas, elimina escrituras de archivos reemplazadas, trunca trazas de error. Cero llamadas a LLM, puramente estructural.
  • Resumir: Elimina turnos antiguos de conversación, los reemplaza con resúmenes generados por LLM. Mantiene una ventana deslizante de turnos recientes intacta.
  • Extraer: Cuando la entrada sigue siendo demasiado grande (como una novela de 110k), utiliza una de las 16 estrategias de extracción para extraer el contenido más relevante dentro del presupuesto de tokens.

Estrategias de extracción

La etapa de extracción implementa 16 estrategias que van desde:

  • 0 llamadas a LLM: Similitud de incrustaciones (ChromaDB), encabezados de sección, búsqueda heurística de palabras clave, compresión LLMLingua
  • 1 llamada a LLM: LLM genera términos de búsqueda, coincidencia ponderada por IDF a nivel de palabra ensambla el contexto
  • 2 llamadas a LLM (mejor precisión): readagent — fusión de incrustación + BM25 + RRF, expansión de términos con LLM dual, extracción consciente de la posición
  • N llamadas a LLM: Bucles de llamadas a herramientas de múltiples turnos, generación de código DSPy, fragmentación map-reduce

Resultados de referencia

Probadas 12 estrategias en 2 modelos (LFM2-8B-A1B y Qwen3.5-9B) en un total de 331 modelos GGUF:

  • Prueba Frankenstein: 110k tokens comprimidos a 12k tokens, 8 preguntas de comprensión lectora; 8/8 correctas, determinista en 3 ejecuciones consecutivas, 0% de variación
  • LoCoMo-MC10: Preguntas y respuestas de conversación multisensión, 10 opciones, línea base aleatoria es 10%; readagent + Qwen3.5-9B puntúa 15/20 (75%)
  • Rendimiento combinado: readagent + Qwen3.5-9B logra 87.5%, rlm + Qwen3.5-9B logra 80.0%
Ad

Hallazgos clave

  • La elección del modelo importa más que la elección de la estrategia: Cambiar de LFM2 a Qwen3.5 mejoró cada estrategia en +25-50 puntos porcentuales. La estrategia mediana pasó de 5/8 a 7/8 solo cambiando el modelo.
  • NR-MMLU predice el rendimiento de la ingeniería de contexto: El 47% de NR-MMLU de LFM2 frente al 65% de Qwen3.5 se correlaciona directamente con las diferencias de precisión.
  • 2 llamadas de extracción a LLM es el punto óptimo: Ir de 0 a 1 llamada da un impulso significativo; de 1 a 2 llamadas alcanza la máxima precisión. Más allá de 2 llamadas, la precisión disminuye.
  • readagent y rlm son estrategias innovadoras: Ambas logran 8/8 en Frankenstein. Solo estrategias que resuelven la Q4 (pregunta sobre Irlanda). readagent lidera en dominios cruzados con 75% en LoCoMo frente al 60% de rlm.

Detalles técnicos

  • Arquitectura: Proxy independiente (considerado complemento LiteLLM y proceso auxiliar) porque las estrategias innovadoras necesitan llamadas a LLM en medio de la canalización
  • Implementación: ~11k líneas de Python, servidor FastAPI, 3 endpoints, compatible con OpenAI, sin marcos pesados
  • Compatibilidad: Se coloca delante de cualquier backend llama-server / Ollama / vLLM. Sin claves API, sin nube, todo se ejecuta en tu hardware

Para desarrolladores que ejecutan LLMs locales con flujos de trabajo agentes que exceden las ventanas de contexto, Ctxpact proporciona una solución práctica para mantener la integridad de la información mientras se mantiene dentro de las limitaciones del hardware.

📖 Read the full source: r/LocalLLaMA

Ad

👀 Ver también

git-prism v0.9.0: Proporciona Diffs Estructurados a Agentes de Codificación de IA mediante MCP
Herramientas

git-prism v0.9.0: Proporciona Diffs Estructurados a Agentes de Codificación de IA mediante MCP

git-prism es un servidor MCP que reemplaza el texto diff de git con JSON estructurado para agentes de IA.

OpenClawRadar
ByteRover Complemento de Memoria para OpenClaw: Integración Nativa con Jerarquía Semántica
Herramientas

ByteRover Complemento de Memoria para OpenClaw: Integración Nativa con Jerarquía Semántica

El complemento ByteRover Memory para OpenClaw proporciona memoria estructurada a largo plazo nativa mediante una arquitectura de tres capas y una jerarquía semántica almacenada en archivos Markdown. Logra un 92.2% de precisión en recuperación y requiere OpenClaw v2026.3.22+.

OpenClawRadar
Commons 2.0: Un Espacio Persistente para la Comunicación de Modelos de IA
Herramientas

Commons 2.0: Un Espacio Persistente para la Comunicación de Modelos de IA

The Commons es una plataforma pública donde modelos de IA como Claude, GPT, Gemini y Grok pueden publicar en discusiones, anotar poesía, dejar postales y construir conversaciones continuas entre sesiones. La versión 2.0 añade organización basada en intereses, sistemas de notificaciones, perfiles de voz e infraestructura de registro para agentes.

OpenClawRadar
ClawHost de Código Abierto OpenClaw con Implementación en un Clic Alcanza Más de 200 Estrellas en GitHub
Herramientas

ClawHost de Código Abierto OpenClaw con Implementación en un Clic Alcanza Más de 200 Estrellas en GitHub

ClawHost, una herramienta de código abierto para la instalación de OpenClaw con un solo clic que ofrece acceso y control total del servidor, ha alcanzado más de 200 estrellas en GitHub. El proyecto aborda los problemas de los envoltorios comerciales inestables al proporcionar una solución gratuita y autoalojable.

OpenClawRadar