Ctxpact : Proxy de Compactage de Contexte pour LLM Locaux

Ctxpact est un proxy léger compatible OpenAI qui s'intercale entre les agents d'IA et les LLM locaux pour compresser intelligemment les entrées trop volumineuses avant qu'elles n'atteignent les modèles avec des fenêtres de contexte limitées. Il est conçu pour les flux de travail agentiques comme OpenClaw et Hermes qui envoient des charges utiles de plus de 100k tokens à des modèles avec seulement 16k de fenêtre de contexte, où la troncature entraînerait la perte d'informations critiques.
Fonctionnement
Le système utilise un pipeline de compactage à 3 étapes :
- DCP (Élagage Dynamique du Contexte) : Déduplique les appels d'outils, supprime les écritures de fichiers remplacées, tronque les traces d'erreur. Zéro appel LLM, purement structurel.
- Résumer : Évince les anciens tours de conversation, les remplace par des résumés générés par LLM. Garde une fenêtre glissante des tours récents intacts.
- Extraire : Lorsque l'entrée est encore trop grande (comme un roman de 110k), utilise l'une des 16 stratégies d'extraction pour extraire le contenu le plus pertinent dans le budget de tokens.
Stratégies d'Extraction
L'étape d'extraction implémente 16 stratégies allant de :
- 0 appel LLM : Similarité d'embedding (ChromaDB), en-têtes de section, recherche heuristique de mots-clés, compression LLMLingua
- 1 appel LLM : LLM génère des termes de recherche, l'appariement au niveau des mots pondéré par IDF assemble le contexte
- 2 appels LLM (meilleure précision) : readagent — fusion d'embedding + BM25 + RRF, expansion de termes par LLM dual, extraction sensible à la position
- N appels LLM : Boucles d'appel d'outils multi-tours, génération de code DSPy, découpage map-reduce
Résultats de Benchmark
Testé 12 stratégies sur 2 modèles (LFM2-8B-A1B et Qwen3.5-9B) sur un total de 331 modèles GGUF :
- Test Frankenstein : 110k tokens compressés à 12k tokens, 8 questions de compréhension de lecture ; 8/8 correctes, déterministe sur 3 exécutions consécutives, variance de 0%
- LoCoMo-MC10 : QA conversationnelle multi-sessions, 10 choix, la base aléatoire est de 10% ; readagent + Qwen3.5-9B obtient 15/20 (75%)
- Performance combinée : readagent + Qwen3.5-9B atteint 87,5%, rlm + Qwen3.5-9B atteint 80,0%
Principales Constatations
- Le choix du modèle compte plus que le choix de la stratégie : Passer de LFM2 à Qwen3.5 a amélioré chaque stratégie de +25 à 50 points de pourcentage. La stratégie médiane est passée de 5/8 à 7/8 juste en changeant de modèle.
- NR-MMLU prédit la performance de l'ingénierie du contexte : Les 47% de NR-MMLU de LFM2 contre 65% pour Qwen3.5 correspondent directement aux différences de précision.
- 2 appels d'extraction LLM est le point idéal : Passer de 0 à 1 appel donne un boost significatif ; de 1 à 2 appels atteint la précision maximale. Au-delà de 2 appels, la précision baisse.
- readagent et rlm sont des stratégies révolutionnaires : Les deux obtiennent 8/8 sur Frankenstein. Seules les stratégies qui résolvent Q4 (question sur l'Irlande). readagent mène en inter-domaines à 75% sur LoCoMo contre 60% pour rlm.
Détails Techniques
- Architecture : Proxy autonome (envisagé comme plugin LiteLLM et processus sidecar) car les stratégies révolutionnaires nécessitent des appels LLM en milieu de pipeline
- Implémentation : ~11k lignes de Python, serveur FastAPI, 3 endpoints, compatible OpenAI, pas de frameworks lourds
- Compatibilité : S'insère devant n'importe quel backend llama-server / Ollama / vLLM. Pas de clés API, pas de cloud, tout s'exécute sur votre matériel
Pour les développeurs exécutant des LLM locaux avec des flux de travail agentiques qui dépassent les fenêtres de contexte, Ctxpact fournit une solution pratique pour maintenir l'intégrité de l'information tout en restant dans les contraintes matérielles.
📖 Read the full source: r/LocalLLaMA
👀 See Also

Mengram AI : Outil de Mémoire Automatique pour les Sessions de Code Claude
Mengram AI maintient automatiquement le contexte entre les sessions Claude Code en chargeant les profils cognitifs, en injectant le contexte passé pertinent dans les invites et en sauvegardant les nouvelles connaissances. Il stocke une mémoire sémantique, épisodique et procédurale qui évolue en fonction des échecs.

OpenCawt : Système Judiciaire Open Source pour les Litiges d'Agents IA
OpenCawt est un système judiciaire open source pour agents autonomes qui leur permet de déposer des litiges, présenter des preuves, recevoir des décisions structurées et sceller les résultats en tant qu'enregistrements publics vérifiables. Il comprend une couche de protocole légère appelée OCP pour formaliser les accords et décisions au sein d'autres applications.

Savant Commander 48B : Un modèle personnalisé Qwen 3 à base de mélange d'experts, intégrant 12 modèles distillés
Savant Commander 48B est un modèle Qwen 3 Mixture-of-Experts personnalisé avec un routage codé manuellement qui combine 12 modèles distillés provenant de fournisseurs comme Claude, Gemini, OpenAI et Deepseek. Il dispose d'une longueur de contexte de 256K et permet l'activation contrôlée par prompt de modèles distillés spécifiques.

Le Benchmark Montre que l'Outil CLI Réduit les Coûts de Tokens de Code de Claude de 32% Grâce à la Navigation Structurelle
Un développeur a créé un outil CLI en Rust qui donne aux agents Claude Code des commandes de navigation structurelle comme 'montre-moi un résumé de 180 tokens de cette classe de 6 000 tokens'. Le benchmarking sur Sonnet 4.6 sur 54 exécutions automatisées a montré une réduction de 32 % du coût par tâche et 67 % de modifications de code supplémentaires par session.