Merlin : Déduplication contextuelle LLM d'abord locale – mesure jusqu'à 71 % de chevauchement de morceaux, gratuit et open-core

L'auteur a publié Merlin, un outil de déduplication priorisant le local pour les fenêtres de contexte des LLM. Des benchmarks sur 22 millions de passages provenant de sessions réelles d'agents et de pipelines RAG montrent 22 % de contenu dupliqué dans le contexte typique d'un agent et jusqu'à 71 % sur les requêtes lourdes en RAG. Pour les modèles locaux avec des contextes de 8K/16K/32K, supprimer cette redondance permet d'insérer davantage de tokens utiles avant la troncature.
Trois modes d'intégration
1. Mode proxy HTTP
Idéal pour Ollama, vLLM, SGLang, OpenWebUI, llama.cpp server, ou tout autre service avec un endpoint compatible OpenAI. Lancez le proxy localement et pointez votre client vers http://localhost:8787/v1 au lieu de votre serveur de modèle directement. La déduplication au niveau des blocs s'effectue dans la requête sortante avant d'atteindre le modèle.
Par défaut, le mode est conscient du cache : il laisse le préfixe de la conversation intact (afin que le préfixe-caching de vLLM/SGLang fonctionne toujours) et ne déduplique que le message utilisateur le plus récent. Il existe un mode agressif optionnel si votre taux de hits dans le cache est déjà bas.
2. Serveur MCP
Pour Claude Desktop, Claude Code, OpenClaw, Cursor. Expose les outils :
merlin_dedupe– dédupliquer du textemerlin_dedupe_file– dédupliquer le contenu d'un fichiermerlin_savings_summary– afficher les statistiquesmerlin_status– vérifier le service
Ces outils ne sont pas invoqués automatiquement ; vous devez demander au modèle de les appeler sur des copier-coller volumineux.
3. CLI autonome
Pour les pipelines shell et le prétraitement. Monothreadé, binaire d'environ 250 Ko, aucune dépendance runtime, aucun appel réseau. Prend un fichier d'entrée positionnel et écrit les lignes dédupliquées via --output-dedup=path.txt.
Installation (une commande par configuration)
curl -LO https://github.com/corbenicai/merlin-community/releases/latest/download/merlin-community.zip
unzip merlin-community.zip && cd merlin-community
python shared/install_helpers.py <integration> enable
Où <integration> est claude_desktop, claude_code, openclaw, cursor, ou proxy.
Mesures et compromis
- Articles : arXiv:2605.09611 (architecture), arXiv:2605.09990 (mesure sur 22 millions de passages), Zenodo: 10.5281/zenodo.20090991
- Plafonds de la version communauté : 50 Mo par exécution, 200 Mo par jour, 2 Go par mois. Refuse proprement les travaux trop volumineux (vérifié sur un fichier de 51 Mo). L'utilisation personnelle convient.
- Open-core : Le dépôt public est l'édition communauté ; un moteur Pro distinct et closed-source existe pour les serveurs à haut débit.
- Ne résout pas la fragmentation des sessions où toute la conversation est rejouée à chaque tour — c'est un problème d'orchestration hors du périmètre de cet outil.
- Disponibilité des binaires : Windows x64 dans la v0.2.1. Pipeline CI pour Linux + macOS en attente.
À qui cela s'adresse
Utilisateurs de LLM locaux faisant tourner des agents ou du RAG avec Ollama, vLLM, SGLang, llama.cpp, ou tout backend compatible OpenAI qui souhaitent intégrer davantage de tokens réels dans des fenêtres de contexte limitées.
📖 Lire la source complète : r/LocalLLaMA
👀 See Also

GoModel : Une passerelle d'IA légère et open-source écrite en Go
GoModel est une passerelle IA open-source qui fournit une API unifiée compatible OpenAI pour plusieurs fournisseurs, notamment OpenAI, Anthropic, Gemini, Groq, xAI et Ollama. Il propose une image Docker de 17 Mo, 44 fois plus légère que LiteLLM, avec une configuration priorisant les variables d'environnement et une observabilité intégrée.

Dirac : un agent open-source domine TerminalBench avec 65,2 %, moins cher et ouvert
Dirac, un agent de codage open-source, a obtenu un score de 65,2 % sur TerminalBench 2.0 pour gemini-3-flash-preview, surpassant le socle de Google (47,6 %) et le meilleur agent propriétaire Junie CLI (64,3 %). Il réduit également les coûts API de 64,8 % par rapport à ses concurrents.

Kanwas : Tableau de contexte partagé open source pour les équipes et les agents IA
Kanwas est un espace de travail collaboratif open source où les équipes et les agents IA partagent des documents, des preuves et des décisions sur un tableau avec des appels d'outils en direct. Auto-hébergé via Docker, il est basé sur Git avec Yjs et BlockNote.

Relvy améliore la précision de l'analyse des causes racines de Claude de 12 points de pourcentage sur le benchmark OpenRCA.
Relvy, un outil qui automatise les runbooks, a démontré une amélioration de 12 points de pourcentage de la précision de Claude sur le benchmark OpenRCA pour l'analyse des causes racines. Les résultats ont été partagés via un post Hacker News avec 11 points.