Ctxpact: Proxy de Compactación de Contexto para LLMs Locales

Ctxpact es un proxy ligero compatible con OpenAI que se sitúa entre los agentes de IA y los LLMs locales para comprimir inteligentemente las entradas de gran tamaño antes de que lleguen a modelos con ventanas de contexto limitadas. Está diseñado para flujos de trabajo agentes como OpenClaw y Hermes que envían cargas útiles de más de 100k tokens a modelos con solo 16k de ventana de contexto, donde el truncamiento perdería información crítica.

Cómo funciona

El sistema utiliza una canalización de compactación de 3 etapas:

DCP (Poda Dinámica de Contexto): Elimina duplicados de llamadas a herramientas, elimina escrituras de archivos reemplazadas, trunca trazas de error. Cero llamadas a LLM, puramente estructural.
Resumir: Elimina turnos antiguos de conversación, los reemplaza con resúmenes generados por LLM. Mantiene una ventana deslizante de turnos recientes intacta.
Extraer: Cuando la entrada sigue siendo demasiado grande (como una novela de 110k), utiliza una de las 16 estrategias de extracción para extraer el contenido más relevante dentro del presupuesto de tokens.

Estrategias de extracción

La etapa de extracción implementa 16 estrategias que van desde:

0 llamadas a LLM: Similitud de incrustaciones (ChromaDB), encabezados de sección, búsqueda heurística de palabras clave, compresión LLMLingua
1 llamada a LLM: LLM genera términos de búsqueda, coincidencia ponderada por IDF a nivel de palabra ensambla el contexto
2 llamadas a LLM (mejor precisión): readagent — fusión de incrustación + BM25 + RRF, expansión de términos con LLM dual, extracción consciente de la posición
N llamadas a LLM: Bucles de llamadas a herramientas de múltiples turnos, generación de código DSPy, fragmentación map-reduce

Resultados de referencia

Probadas 12 estrategias en 2 modelos (LFM2-8B-A1B y Qwen3.5-9B) en un total de 331 modelos GGUF:

Prueba Frankenstein: 110k tokens comprimidos a 12k tokens, 8 preguntas de comprensión lectora; 8/8 correctas, determinista en 3 ejecuciones consecutivas, 0% de variación
LoCoMo-MC10: Preguntas y respuestas de conversación multisensión, 10 opciones, línea base aleatoria es 10%; readagent + Qwen3.5-9B puntúa 15/20 (75%)
Rendimiento combinado: readagent + Qwen3.5-9B logra 87.5%, rlm + Qwen3.5-9B logra 80.0%

Hallazgos clave

La elección del modelo importa más que la elección de la estrategia: Cambiar de LFM2 a Qwen3.5 mejoró cada estrategia en +25-50 puntos porcentuales. La estrategia mediana pasó de 5/8 a 7/8 solo cambiando el modelo.
NR-MMLU predice el rendimiento de la ingeniería de contexto: El 47% de NR-MMLU de LFM2 frente al 65% de Qwen3.5 se correlaciona directamente con las diferencias de precisión.
2 llamadas de extracción a LLM es el punto óptimo: Ir de 0 a 1 llamada da un impulso significativo; de 1 a 2 llamadas alcanza la máxima precisión. Más allá de 2 llamadas, la precisión disminuye.
readagent y rlm son estrategias innovadoras: Ambas logran 8/8 en Frankenstein. Solo estrategias que resuelven la Q4 (pregunta sobre Irlanda). readagent lidera en dominios cruzados con 75% en LoCoMo frente al 60% de rlm.

Detalles técnicos

Arquitectura: Proxy independiente (considerado complemento LiteLLM y proceso auxiliar) porque las estrategias innovadoras necesitan llamadas a LLM en medio de la canalización
Implementación: ~11k líneas de Python, servidor FastAPI, 3 endpoints, compatible con OpenAI, sin marcos pesados
Compatibilidad: Se coloca delante de cualquier backend llama-server / Ollama / vLLM. Sin claves API, sin nube, todo se ejecuta en tu hardware

Para desarrolladores que ejecutan LLMs locales con flujos de trabajo agentes que exceden las ventanas de contexto, Ctxpact proporciona una solución práctica para mantener la integridad de la información mientras se mantiene dentro de las limitaciones del hardware.

📖 Read the full source: r/LocalLLaMA