Merlin: Deduplicación de contexto LLM local-primero – mide hasta un 71% de superposición de fragmentos, gratuito y de núcleo abierto

✍️ OpenClawRadar📅 Publicado: 13 de mayo de 2026🔗 Source
Merlin: Deduplicación de contexto LLM local-primero – mide hasta un 71% de superposición de fragmentos, gratuito y de núcleo abierto
Ad

El autor ha lanzado Merlin, una herramienta de deduplicación local para ventanas de contexto de LLM. Pruebas de referencia con 22 millones de pasajes de sesiones reales de agentes y pipelines RAG muestran un 22% de contenido duplicado en contexto típico de agente y hasta un 71% en consultas con mucha RAG. Para modelos locales con contexto de 8K/16K/32K, eliminar esa redundancia significa que caben más tokens útiles antes del truncamiento.

Tres modos de integración

1. Modo proxy HTTP

Ideal para Ollama, vLLM, SGLang, OpenWebUI, servidor llama.cpp o cualquier cosa con un endpoint compatible con OpenAI. Ejecuta el proxy localmente y apunta tu cliente a http://localhost:8787/v1 en lugar de directamente a tu servidor de modelos. La deduplicación a nivel de chunk ocurre en la solicitud saliente antes de llegar al modelo.

Por defecto, es consciente de la caché: deja intacto el prefijo de la conversación (para que el cacheo de prefijos de vLLM/SGLang siga funcionando) y solo deduplica el mensaje de usuario más reciente. Hay un modo agresivo opcional si tu tasa de aciertos de caché ya es baja.

2. Servidor MCP

Para Claude Desktop, Claude Code, OpenClaw, Cursor. Expone las herramientas:

  • merlin_dedupe – deduplicar texto
  • merlin_dedupe_file – deduplicar contenido de archivo
  • merlin_savings_summary – mostrar estadísticas
  • merlin_status – verificar servicio

Estas herramientas no se invocan automáticamente; debes indicar al modelo que las llame en textos grandes.

3. CLI independiente

Para pipelines de shell y preprocesamiento. Monohilo, binario de ~250 KB, sin dependencias en tiempo de ejecución, sin llamadas de red. Toma un archivo de entrada posicional y escribe líneas deduplicadas mediante --output-dedup=ruta.txt.

Ad

Instalación (un comando por configuración)

curl -LO https://github.com/corbenicai/merlin-community/releases/latest/download/merlin-community.zip
unzip merlin-community.zip && cd merlin-community
python shared/install_helpers.py <integración> enable

Donde <integración> es claude_desktop, claude_code, openclaw, cursor o proxy.

Mediciones y compensaciones

  • Artículos: arXiv:2605.09611 (arquitectura), arXiv:2605.09990 (medición de 22M de pasajes), Zenodo: 10.5281/zenodo.20090991
  • Límites del nivel comunitario: 50 MB por ejecución, 200 MB por día, 2 GB por mes. Rechaza trabajos demasiado grandes de forma clara (verificado con archivo de 51 MB). El uso hobby está bien.
  • Código abierto: El repositorio público es la edición comunitaria; existe un motor Pro de código cerrado separado para servidores de alto rendimiento.
  • No soluciona la fragmentación de sesiones donde se reproduce toda la conversación en cada turno: eso es un problema de orquestación fuera del alcance de esta herramienta.
  • Disponibilidad binaria: Windows x64 en v0.2.1. Pipeline de CI para Linux + macOS pendiente.

Para quién es

Usuarios de LLM locales que ejecutan agentes o RAG con Ollama, vLLM, SGLang, llama.cpp o cualquier backend compatible con OpenAI que quieran empaquetar más tokens reales en ventanas de contexto limitadas.

📖 Lee la fuente original: r/LocalLLaMA

Ad

👀 Ver también

Por qué Codex sigue superando a Claude Code para monolitos complejos de Python
Herramientas

Por qué Codex sigue superando a Claude Code para monolitos complejos de Python

Un desarrollador senior compara Codex vs Claude Code en un monolito Python de producción con capas arquitectónicas mixtas. Codex gana para trabajo backend debido a una mejor planificación, reutilización de código y adherencia a la ingeniería de harness.

OpenClawRadar
IUM: El indexador de símbolos MCP reduce el uso de tokens de IA en 15.9 veces frente a grep
Herramientas

IUM: El indexador de símbolos MCP reduce el uso de tokens de IA en 15.9 veces frente a grep

IUM indexa codebases en una matriz SQLite de eventos de símbolos, exponiendo coordenadas exactas archivo:línea, trazado del grafo de llamadas y búsqueda semántica a través de MCP. Comparado con DataFusion (1,538 archivos) muestra 15.9 veces menos tokens que grep para consultas equivalentes.

OpenClawRadar
Consejo: Un Marco de Diálogo Estructurado para Claude
Herramientas

Consejo: Un Marco de Diálogo Estructurado para Claude

Consejo — Un Crisol es un marco de diálogo estructurado que se ejecuta dentro de una única ventana de contexto de Claude, utilizando marcos de personajes para producir cuatro modos distintos de participación: interrogatorio riguroso, acción generativa, experiencia vivida e intuición no formada.

OpenClawRadar
El archivo de protocolo de Claude Code reduce las preguntas repetitivas.
Herramientas

El archivo de protocolo de Claude Code reduce las preguntas repetitivas.

Un desarrollador creó un único archivo .md para ~/.claude/rules/ que infiere el tipo de tarea y el riesgo a partir del primer mensaje, eliminando la secuencia típica de tres preguntas de Claude Code antes de comenzar a trabajar.

OpenClawRadar