Merlin: Deduplicação de contexto LLM local-first – meça até 71% de sobreposição de chunks, gratuito e open-core

O autor lançou o Merlin, uma ferramenta de deduplicação local-first para janelas de contexto de LLMs. Benchmarks em 22 milhões de passagens de sessões reais de agentes e pipelines RAG mostram 22% de conteúdo duplicado em contextos típicos de agentes e até 71% em consultas com uso intensivo de RAG. Para modelos locais com contexto de 8K/16K/32K, remover essa redundância significa que mais tokens úteis cabem antes do truncamento.
Três modos de integração
1. Modo proxy HTTP
Melhor para Ollama, vLLM, SGLang, OpenWebUI, llama.cpp server ou qualquer coisa com endpoint compatível com OpenAI. Execute o proxy localmente e aponte seu cliente para http://localhost:8787/v1 em vez do servidor de modelo diretamente. A deduplicação em nível de chunk ocorre na requisição de saída antes de chegar ao modelo.
O padrão é ciente de cache: deixa o prefixo da conversa intacto (para que o cache de prefixo vLLM/SGLang ainda funcione) e deduplica apenas a última mensagem do usuário. Há um modo agressivo opcional se sua taxa de acerto de cache já for baixa.
2. Servidor MCP
Para Claude Desktop, Claude Code, OpenClaw, Cursor. Expõe ferramentas:
merlin_dedupe– deduplica textomerlin_dedupe_file– deduplica conteúdo de arquivomerlin_savings_summary– mostra estatísticasmerlin_status– verifica serviço
Essas ferramentas não são invocadas automaticamente; você deve instruir o modelo a chamá-las em pastas grandes.
3. CLI standalone
Para pipelines de shell e pré-processamento. Monothread, binário de ~250 KB, sem dependências de runtime, sem chamadas de rede. Recebe um arquivo de entrada posicional e escreve linhas deduplicadas via --output-dedup=path.txt.
Instalação (um comando por configuração)
curl -LO https://github.com/corbenicai/merlin-community/releases/latest/download/merlin-community.zip
unzip merlin-community.zip && cd merlin-community
python shared/install_helpers.py <integration> enable
Onde <integration> é claude_desktop, claude_code, openclaw, cursor ou proxy.
Medições e trade-offs
- Artigos: arXiv:2605.09611 (arquitetura), arXiv:2605.09990 (medição de 22 milhões de passagens), Zenodo: 10.5281/zenodo.20090991
- Limites do tier comunitário: 50 MB por execução, 200 MB por dia, 2 GB por mês. Recusa trabalhos muito grandes de forma limpa (verificado em arquivo de 51 MB). Uso pessoal é suficiente.
- Open-core: O repositório público é a edição comunitária; existe um mecanismo Pro de código fechado separado para servidores de alta vazão.
- Não resolve fragmentação de sessão onde toda a conversa é repetida a cada turno — isso é um problema de orquestração acima do escopo desta ferramenta.
- Disponibilidade de binários: Windows x64 na v0.2.1. Pipeline de CI para Linux + macOS pendente.
Para quem é
Usuários locais de LLM executando agentes ou RAG com Ollama, vLLM, SGLang, llama.cpp ou qualquer backend compatível com OpenAI que queiram colocar mais tokens reais em janelas de contexto limitadas.
📖 Leia a fonte original: r/LocalLLaMA
👀 See Also

Wrangle: Um Editor Nativo do macOS para Gerenciar Sessões de Código do Claude
Wrangle é um editor de markdown nativo para macOS desenvolvido especificamente para gerenciar múltiplas sessões do Claude Code, com terminais embutidos e notificações inteligentes. O desenvolvedor criou o aplicativo depois que o VS Code não conseguiu acompanhar seu fluxo de trabalho diário de executar muitas sessões do Claude Code.

ClawCut Proxy Lançado no GitHub para Otimizar OpenClaw para Pequenos LLMs
ClawCut é um proxy experimental que manipula, injeta chamadas JSON e extrai ruído JSON do OpenClaw para reduzir a sobrecarga cognitiva em modelos pequenos (7B-8B) executados em hardware limitado.

Automatize briefings diários em podcasts pessoais do Spotify com OpenClaw e o CLI Save to Spotify
OpenClaw roda diariamente às 7h, puxa threads do Slack + notificações do GitHub + calendário, resume em mp3 e envia como episódio privado via Save to Spotify CLI. Funciona nos planos Free e Premium.

Auto Router vs Sonnet: Economia de Custos vs Qualidade da Resposta
O recurso Auto Router do Open Router seleciona dinamicamente LLMs com base na complexidade do contexto, oferecendo economias significativas de custo (0,8 centavos vs 0,00071 centavos por solicitação), mas os usuários relatam qualidade de resposta degradada em comparação com o Sonnet 4.6.