Ctxpact Proxy: Compressez le Contexte LLM Local 16k

Ctxpact est un proxy léger compatible OpenAI qui s'intercale entre les agents d'IA et les LLM locaux pour compresser intelligemment les entrées trop volumineuses avant qu'elles n'atteignent les modèles avec des fenêtres de contexte limitées. Il est conçu pour les flux de travail agentiques comme OpenClaw et Hermes qui envoient des charges utiles de plus de 100k tokens à des modèles avec seulement 16k de fenêtre de contexte, où la troncature entraînerait la perte d'informations critiques.

Fonctionnement

Le système utilise un pipeline de compactage à 3 étapes :

DCP (Élagage Dynamique du Contexte) : Déduplique les appels d'outils, supprime les écritures de fichiers remplacées, tronque les traces d'erreur. Zéro appel LLM, purement structurel.
Résumer : Évince les anciens tours de conversation, les remplace par des résumés générés par LLM. Garde une fenêtre glissante des tours récents intacts.
Extraire : Lorsque l'entrée est encore trop grande (comme un roman de 110k), utilise l'une des 16 stratégies d'extraction pour extraire le contenu le plus pertinent dans le budget de tokens.

Stratégies d'Extraction

L'étape d'extraction implémente 16 stratégies allant de :

0 appel LLM : Similarité d'embedding (ChromaDB), en-têtes de section, recherche heuristique de mots-clés, compression LLMLingua
1 appel LLM : LLM génère des termes de recherche, l'appariement au niveau des mots pondéré par IDF assemble le contexte
2 appels LLM (meilleure précision) : readagent — fusion d'embedding + BM25 + RRF, expansion de termes par LLM dual, extraction sensible à la position
N appels LLM : Boucles d'appel d'outils multi-tours, génération de code DSPy, découpage map-reduce

Résultats de Benchmark

Testé 12 stratégies sur 2 modèles (LFM2-8B-A1B et Qwen3.5-9B) sur un total de 331 modèles GGUF :

Test Frankenstein : 110k tokens compressés à 12k tokens, 8 questions de compréhension de lecture ; 8/8 correctes, déterministe sur 3 exécutions consécutives, variance de 0%
LoCoMo-MC10 : QA conversationnelle multi-sessions, 10 choix, la base aléatoire est de 10% ; readagent + Qwen3.5-9B obtient 15/20 (75%)
Performance combinée : readagent + Qwen3.5-9B atteint 87,5%, rlm + Qwen3.5-9B atteint 80,0%

Principales Constatations

Le choix du modèle compte plus que le choix de la stratégie : Passer de LFM2 à Qwen3.5 a amélioré chaque stratégie de +25 à 50 points de pourcentage. La stratégie médiane est passée de 5/8 à 7/8 juste en changeant de modèle.
NR-MMLU prédit la performance de l'ingénierie du contexte : Les 47% de NR-MMLU de LFM2 contre 65% pour Qwen3.5 correspondent directement aux différences de précision.
2 appels d'extraction LLM est le point idéal : Passer de 0 à 1 appel donne un boost significatif ; de 1 à 2 appels atteint la précision maximale. Au-delà de 2 appels, la précision baisse.
readagent et rlm sont des stratégies révolutionnaires : Les deux obtiennent 8/8 sur Frankenstein. Seules les stratégies qui résolvent Q4 (question sur l'Irlande). readagent mène en inter-domaines à 75% sur LoCoMo contre 60% pour rlm.

Détails Techniques

Architecture : Proxy autonome (envisagé comme plugin LiteLLM et processus sidecar) car les stratégies révolutionnaires nécessitent des appels LLM en milieu de pipeline
Implémentation : ~11k lignes de Python, serveur FastAPI, 3 endpoints, compatible OpenAI, pas de frameworks lourds
Compatibilité : S'insère devant n'importe quel backend llama-server / Ollama / vLLM. Pas de clés API, pas de cloud, tout s'exécute sur votre matériel

Pour les développeurs exécutant des LLM locaux avec des flux de travail agentiques qui dépassent les fenêtres de contexte, Ctxpact fournit une solution pratique pour maintenir l'intégrité de l'information tout en restant dans les contraintes matérielles.

📖 Read the full source: r/LocalLLaMA