Merlin : Déduplication Contextuelle LLM avec 71% de Chevauchement

L'auteur a publié Merlin, un outil de déduplication priorisant le local pour les fenêtres de contexte des LLM. Des benchmarks sur 22 millions de passages provenant de sessions réelles d'agents et de pipelines RAG montrent 22 % de contenu dupliqué dans le contexte typique d'un agent et jusqu'à 71 % sur les requêtes lourdes en RAG. Pour les modèles locaux avec des contextes de 8K/16K/32K, supprimer cette redondance permet d'insérer davantage de tokens utiles avant la troncature.

Trois modes d'intégration

1. Mode proxy HTTP

Idéal pour Ollama, vLLM, SGLang, OpenWebUI, llama.cpp server, ou tout autre service avec un endpoint compatible OpenAI. Lancez le proxy localement et pointez votre client vers http://localhost:8787/v1 au lieu de votre serveur de modèle directement. La déduplication au niveau des blocs s'effectue dans la requête sortante avant d'atteindre le modèle.

Par défaut, le mode est conscient du cache : il laisse le préfixe de la conversation intact (afin que le préfixe-caching de vLLM/SGLang fonctionne toujours) et ne déduplique que le message utilisateur le plus récent. Il existe un mode agressif optionnel si votre taux de hits dans le cache est déjà bas.

2. Serveur MCP

Pour Claude Desktop, Claude Code, OpenClaw, Cursor. Expose les outils :

merlin_dedupe – dédupliquer du texte
merlin_dedupe_file – dédupliquer le contenu d'un fichier
merlin_savings_summary – afficher les statistiques
merlin_status – vérifier le service

Ces outils ne sont pas invoqués automatiquement ; vous devez demander au modèle de les appeler sur des copier-coller volumineux.

3. CLI autonome

Pour les pipelines shell et le prétraitement. Monothreadé, binaire d'environ 250 Ko, aucune dépendance runtime, aucun appel réseau. Prend un fichier d'entrée positionnel et écrit les lignes dédupliquées via --output-dedup=path.txt.

Installation (une commande par configuration)

curl -LO https://github.com/corbenicai/merlin-community/releases/latest/download/merlin-community.zip
unzip merlin-community.zip && cd merlin-community
python shared/install_helpers.py <integration> enable

Où <integration> est claude_desktop, claude_code, openclaw, cursor, ou proxy.

Mesures et compromis

Articles : arXiv:2605.09611 (architecture), arXiv:2605.09990 (mesure sur 22 millions de passages), Zenodo: 10.5281/zenodo.20090991
Plafonds de la version communauté : 50 Mo par exécution, 200 Mo par jour, 2 Go par mois. Refuse proprement les travaux trop volumineux (vérifié sur un fichier de 51 Mo). L'utilisation personnelle convient.
Open-core : Le dépôt public est l'édition communauté ; un moteur Pro distinct et closed-source existe pour les serveurs à haut débit.
Ne résout pas la fragmentation des sessions où toute la conversation est rejouée à chaque tour — c'est un problème d'orchestration hors du périmètre de cet outil.
Disponibilité des binaires : Windows x64 dans la v0.2.1. Pipeline CI pour Linux + macOS en attente.

À qui cela s'adresse

Utilisateurs de LLM locaux faisant tourner des agents ou du RAG avec Ollama, vLLM, SGLang, llama.cpp, ou tout backend compatible OpenAI qui souhaitent intégrer davantage de tokens réels dans des fenêtres de contexte limitées.

📖 Lire la source complète : r/LocalLLaMA

Merlin : Déduplication contextuelle LLM d'abord locale – mesure jusqu'à 71 % de chevauchement de morceaux, gratuit et open-core

Trois modes d'intégration

1. Mode proxy HTTP

2. Serveur MCP

3. CLI autonome

Installation (une commande par configuration)

Mesures et compromis

À qui cela s'adresse

👀 See Also

GoModel : Une passerelle d'IA légère et open-source écrite en Go

Dirac : un agent open-source domine TerminalBench avec 65,2 %, moins cher et ouvert

Kanwas : Tableau de contexte partagé open source pour les équipes et les agents IA

Relvy améliore la précision de l'analyse des causes racines de Claude de 12 points de pourcentage sur le benchmark OpenRCA.