Merlin: Deduplicación de Contexto LLM

El autor ha lanzado Merlin, una herramienta de deduplicación local para ventanas de contexto de LLM. Pruebas de referencia con 22 millones de pasajes de sesiones reales de agentes y pipelines RAG muestran un 22% de contenido duplicado en contexto típico de agente y hasta un 71% en consultas con mucha RAG. Para modelos locales con contexto de 8K/16K/32K, eliminar esa redundancia significa que caben más tokens útiles antes del truncamiento.

Tres modos de integración

1. Modo proxy HTTP

Ideal para Ollama, vLLM, SGLang, OpenWebUI, servidor llama.cpp o cualquier cosa con un endpoint compatible con OpenAI. Ejecuta el proxy localmente y apunta tu cliente a http://localhost:8787/v1 en lugar de directamente a tu servidor de modelos. La deduplicación a nivel de chunk ocurre en la solicitud saliente antes de llegar al modelo.

Por defecto, es consciente de la caché: deja intacto el prefijo de la conversación (para que el cacheo de prefijos de vLLM/SGLang siga funcionando) y solo deduplica el mensaje de usuario más reciente. Hay un modo agresivo opcional si tu tasa de aciertos de caché ya es baja.

2. Servidor MCP

Para Claude Desktop, Claude Code, OpenClaw, Cursor. Expone las herramientas:

merlin_dedupe – deduplicar texto
merlin_dedupe_file – deduplicar contenido de archivo
merlin_savings_summary – mostrar estadísticas
merlin_status – verificar servicio

Estas herramientas no se invocan automáticamente; debes indicar al modelo que las llame en textos grandes.

3. CLI independiente

Para pipelines de shell y preprocesamiento. Monohilo, binario de ~250 KB, sin dependencias en tiempo de ejecución, sin llamadas de red. Toma un archivo de entrada posicional y escribe líneas deduplicadas mediante --output-dedup=ruta.txt.

Instalación (un comando por configuración)

curl -LO https://github.com/corbenicai/merlin-community/releases/latest/download/merlin-community.zip
unzip merlin-community.zip && cd merlin-community
python shared/install_helpers.py <integración> enable

Donde <integración> es claude_desktop, claude_code, openclaw, cursor o proxy.

Mediciones y compensaciones

Artículos: arXiv:2605.09611 (arquitectura), arXiv:2605.09990 (medición de 22M de pasajes), Zenodo: 10.5281/zenodo.20090991
Límites del nivel comunitario: 50 MB por ejecución, 200 MB por día, 2 GB por mes. Rechaza trabajos demasiado grandes de forma clara (verificado con archivo de 51 MB). El uso hobby está bien.
Código abierto: El repositorio público es la edición comunitaria; existe un motor Pro de código cerrado separado para servidores de alto rendimiento.
No soluciona la fragmentación de sesiones donde se reproduce toda la conversación en cada turno: eso es un problema de orquestación fuera del alcance de esta herramienta.
Disponibilidad binaria: Windows x64 en v0.2.1. Pipeline de CI para Linux + macOS pendiente.

Para quién es

Usuarios de LLM locales que ejecutan agentes o RAG con Ollama, vLLM, SGLang, llama.cpp o cualquier backend compatible con OpenAI que quieran empaquetar más tokens reales en ventanas de contexto limitadas.

📖 Lee la fuente original: r/LocalLLaMA