Merlin: Deduplicación de contexto LLM local-primero – mide hasta un 71% de superposición de fragmentos, gratuito y de núcleo abierto

El autor ha lanzado Merlin, una herramienta de deduplicación local para ventanas de contexto de LLM. Pruebas de referencia con 22 millones de pasajes de sesiones reales de agentes y pipelines RAG muestran un 22% de contenido duplicado en contexto típico de agente y hasta un 71% en consultas con mucha RAG. Para modelos locales con contexto de 8K/16K/32K, eliminar esa redundancia significa que caben más tokens útiles antes del truncamiento.
Tres modos de integración
1. Modo proxy HTTP
Ideal para Ollama, vLLM, SGLang, OpenWebUI, servidor llama.cpp o cualquier cosa con un endpoint compatible con OpenAI. Ejecuta el proxy localmente y apunta tu cliente a http://localhost:8787/v1 en lugar de directamente a tu servidor de modelos. La deduplicación a nivel de chunk ocurre en la solicitud saliente antes de llegar al modelo.
Por defecto, es consciente de la caché: deja intacto el prefijo de la conversación (para que el cacheo de prefijos de vLLM/SGLang siga funcionando) y solo deduplica el mensaje de usuario más reciente. Hay un modo agresivo opcional si tu tasa de aciertos de caché ya es baja.
2. Servidor MCP
Para Claude Desktop, Claude Code, OpenClaw, Cursor. Expone las herramientas:
merlin_dedupe– deduplicar textomerlin_dedupe_file– deduplicar contenido de archivomerlin_savings_summary– mostrar estadísticasmerlin_status– verificar servicio
Estas herramientas no se invocan automáticamente; debes indicar al modelo que las llame en textos grandes.
3. CLI independiente
Para pipelines de shell y preprocesamiento. Monohilo, binario de ~250 KB, sin dependencias en tiempo de ejecución, sin llamadas de red. Toma un archivo de entrada posicional y escribe líneas deduplicadas mediante --output-dedup=ruta.txt.
Instalación (un comando por configuración)
curl -LO https://github.com/corbenicai/merlin-community/releases/latest/download/merlin-community.zip
unzip merlin-community.zip && cd merlin-community
python shared/install_helpers.py <integración> enable
Donde <integración> es claude_desktop, claude_code, openclaw, cursor o proxy.
Mediciones y compensaciones
- Artículos: arXiv:2605.09611 (arquitectura), arXiv:2605.09990 (medición de 22M de pasajes), Zenodo: 10.5281/zenodo.20090991
- Límites del nivel comunitario: 50 MB por ejecución, 200 MB por día, 2 GB por mes. Rechaza trabajos demasiado grandes de forma clara (verificado con archivo de 51 MB). El uso hobby está bien.
- Código abierto: El repositorio público es la edición comunitaria; existe un motor Pro de código cerrado separado para servidores de alto rendimiento.
- No soluciona la fragmentación de sesiones donde se reproduce toda la conversación en cada turno: eso es un problema de orquestación fuera del alcance de esta herramienta.
- Disponibilidad binaria: Windows x64 en v0.2.1. Pipeline de CI para Linux + macOS pendiente.
Para quién es
Usuarios de LLM locales que ejecutan agentes o RAG con Ollama, vLLM, SGLang, llama.cpp o cualquier backend compatible con OpenAI que quieran empaquetar más tokens reales en ventanas de contexto limitadas.
📖 Lee la fuente original: r/LocalLLaMA
👀 Ver también

Por qué Codex sigue superando a Claude Code para monolitos complejos de Python
Un desarrollador senior compara Codex vs Claude Code en un monolito Python de producción con capas arquitectónicas mixtas. Codex gana para trabajo backend debido a una mejor planificación, reutilización de código y adherencia a la ingeniería de harness.

IUM: El indexador de símbolos MCP reduce el uso de tokens de IA en 15.9 veces frente a grep
IUM indexa codebases en una matriz SQLite de eventos de símbolos, exponiendo coordenadas exactas archivo:línea, trazado del grafo de llamadas y búsqueda semántica a través de MCP. Comparado con DataFusion (1,538 archivos) muestra 15.9 veces menos tokens que grep para consultas equivalentes.

Consejo: Un Marco de Diálogo Estructurado para Claude
Consejo — Un Crisol es un marco de diálogo estructurado que se ejecuta dentro de una única ventana de contexto de Claude, utilizando marcos de personajes para producir cuatro modos distintos de participación: interrogatorio riguroso, acción generativa, experiencia vivida e intuición no formada.

El archivo de protocolo de Claude Code reduce las preguntas repetitivas.
Un desarrollador creó un único archivo .md para ~/.claude/rules/ que infiere el tipo de tarea y el riesgo a partir del primer mensaje, eliminando la secuencia típica de tres preguntas de Claude Code antes de comenzar a trabajar.