Merlin LLM: Deduplicação de Contexto com 71% de Ganho

O autor lançou o Merlin, uma ferramenta de deduplicação local-first para janelas de contexto de LLMs. Benchmarks em 22 milhões de passagens de sessões reais de agentes e pipelines RAG mostram 22% de conteúdo duplicado em contextos típicos de agentes e até 71% em consultas com uso intensivo de RAG. Para modelos locais com contexto de 8K/16K/32K, remover essa redundância significa que mais tokens úteis cabem antes do truncamento.

Três modos de integração

1. Modo proxy HTTP

Melhor para Ollama, vLLM, SGLang, OpenWebUI, llama.cpp server ou qualquer coisa com endpoint compatível com OpenAI. Execute o proxy localmente e aponte seu cliente para http://localhost:8787/v1 em vez do servidor de modelo diretamente. A deduplicação em nível de chunk ocorre na requisição de saída antes de chegar ao modelo.

O padrão é ciente de cache: deixa o prefixo da conversa intacto (para que o cache de prefixo vLLM/SGLang ainda funcione) e deduplica apenas a última mensagem do usuário. Há um modo agressivo opcional se sua taxa de acerto de cache já for baixa.

2. Servidor MCP

Para Claude Desktop, Claude Code, OpenClaw, Cursor. Expõe ferramentas:

merlin_dedupe – deduplica texto
merlin_dedupe_file – deduplica conteúdo de arquivo
merlin_savings_summary – mostra estatísticas
merlin_status – verifica serviço

Essas ferramentas não são invocadas automaticamente; você deve instruir o modelo a chamá-las em pastas grandes.

3. CLI standalone

Para pipelines de shell e pré-processamento. Monothread, binário de ~250 KB, sem dependências de runtime, sem chamadas de rede. Recebe um arquivo de entrada posicional e escreve linhas deduplicadas via --output-dedup=path.txt.

Instalação (um comando por configuração)

curl -LO https://github.com/corbenicai/merlin-community/releases/latest/download/merlin-community.zip
unzip merlin-community.zip && cd merlin-community
python shared/install_helpers.py <integration> enable

Onde <integration> é claude_desktop, claude_code, openclaw, cursor ou proxy.

Medições e trade-offs

Artigos: arXiv:2605.09611 (arquitetura), arXiv:2605.09990 (medição de 22 milhões de passagens), Zenodo: 10.5281/zenodo.20090991
Limites do tier comunitário: 50 MB por execução, 200 MB por dia, 2 GB por mês. Recusa trabalhos muito grandes de forma limpa (verificado em arquivo de 51 MB). Uso pessoal é suficiente.
Open-core: O repositório público é a edição comunitária; existe um mecanismo Pro de código fechado separado para servidores de alta vazão.
Não resolve fragmentação de sessão onde toda a conversa é repetida a cada turno — isso é um problema de orquestração acima do escopo desta ferramenta.
Disponibilidade de binários: Windows x64 na v0.2.1. Pipeline de CI para Linux + macOS pendente.

Para quem é

Usuários locais de LLM executando agentes ou RAG com Ollama, vLLM, SGLang, llama.cpp ou qualquer backend compatível com OpenAI que queiram colocar mais tokens reais em janelas de contexto limitadas.

📖 Leia a fonte original: r/LocalLLaMA

Merlin: Deduplicação de contexto LLM local-first – meça até 71% de sobreposição de chunks, gratuito e open-core

Três modos de integração

1. Modo proxy HTTP

2. Servidor MCP

3. CLI standalone

Instalação (um comando por configuração)

Medições e trade-offs

Para quem é

👀 See Also

Compactador de Garras: motor de compressão de tokens em 14 estágios para pipelines de LLM

Servidor MCP de código aberto permite que agentes de IA processem pagamentos L402 via Lightning Network

Yozora-fm: Visualização Interativa da Galáxia de Música Anime

Habilidade OpenClaw Conecta Agentes à Interface do Knods.io para Criação de Fluxos de Trabalho