Merlin: LLM-Kontext-Dedup – 71% Chunk-Überlappung messen

Der Autor hat Merlin veröffentlicht, ein lokales Deduplizierungswerkzeug für LLM-Kontextfenster. Benchmarks über 22 Millionen Passagen aus echten Agenten-Sitzungen und RAG-Pipelines zeigen 22% doppelte Inhalte in typischen Agenten-Kontexten und bis zu 71% bei RAG-lastigen Abfragen. Bei lokalen Modellen mit 8K/16K/32K Kontext bedeutet das Entfernen dieser Redundanz, dass mehr nützliche Tokens vor dem Abschneiden Platz finden.

Drei Integrationsmodi

1. HTTP-Proxy-Modus

Am besten geeignet für Ollama, vLLM, SGLang, OpenWebUI, llama.cpp Server oder alles mit einem OpenAI-kompatiblen Endpunkt. Starten Sie den Proxy lokal und leiten Sie Ihren Client an http://localhost:8787/v1 statt direkt an Ihren Modellserver. Die Deduplizierung auf Chunk-Ebene erfolgt in der ausgehenden Anfrage, bevor sie das Modell erreicht.

Standardmäßig cache-bewusst: Das Gesprächspräfix bleibt unberührt (damit vLLM/SGLang Präfix-Caching weiterhin funktioniert) und nur die neueste Benutzernachricht wird dedupliziert. Es gibt einen optionalen aggressiven Modus, wenn Ihre Cache-Trefferquote bereits niedrig ist.

2. MCP-Server

Für Claude Desktop, Claude Code, OpenClaw, Cursor. Stellt folgende Werkzeuge bereit:

merlin_dedupe – Text deduplizieren
merlin_dedupe_file – Dateiinhalte deduplizieren
merlin_savings_summary – Statistiken anzeigen
merlin_status – Dienst überprüfen

Diese Werkzeuge werden nicht automatisch aufgerufen; Sie müssen das Modell anweisen, sie bei großen Einfügungen zu verwenden.

3. Eigenständiges CLI

Für Shell-Pipelines und Vorverarbeitung. Single-Threaded, ~250 KB Binary, keine Laufzeitabhängigkeiten, keine Netzwerkaufrufe. Nimmt eine Positional-Eingabedatei und schreibt deduplizierte Zeilen via --output-dedup=path.txt.

Installation (ein Befehl pro Setup)

curl -LO https://github.com/corbenicai/merlin-community/releases/latest/download/merlin-community.zip
unzip merlin-community.zip && cd merlin-community
python shared/install_helpers.py <integration> enable

Wobei <integration> durch claude_desktop, claude_code, openclaw, cursor oder proxy ersetzt wird.

Messungen & Abwägungen

Papiere: arXiv:2605.09611 (Architektur), arXiv:2605.09990 (22M-Passagen-Messung), Zenodo: 10.5281/zenodo.20090991
Community-Stufen-Obergrenzen: 50 MB pro Lauf, 200 MB pro Tag, 2 GB pro Monat. Lehnt übermäßig große Arbeiten sauber ab (getestet mit einer 51 MB großen Datei). Hobby-Nutzung ist in Ordnung.
Open-Core: Das öffentliche Repository ist die Community-Edition; es existiert eine separate Closed-Source Pro-Engine für Hochdurchsatz-Server.
Behebt nicht die Sitzungsfragmentierung, bei der die gesamte Unterhaltung bei jedem Durchlauf wiederholt wird – das ist ein Orchestrierungsproblem außerhalb des Anwendungsbereichs dieses Tools.
Binary-Verfügbarkeit: Windows x64 in v0.2.1. Linux + macOS CI-Pipeline in Arbeit.

Für wen es gedacht ist

Benutzer lokaler LLMs, die Agents oder RAG mit Ollama, vLLM, SGLang, llama.cpp oder einem beliebigen OpenAI-kompatiblen Backend betreiben und mehr echte Tokens in begrenzte Kontextfenster packen möchten.

📖 Vollständige Quelle lesen: r/LocalLLaMA

Merlin: Lokaler LLM-Kontext-Dedup – misst bis zu 71% Chunk-Überlappung, kostenlos & Open-Core

Drei Integrationsmodi

1. HTTP-Proxy-Modus

2. MCP-Server

3. Eigenständiges CLI

Installation (ein Befehl pro Setup)

Messungen & Abwägungen

Für wen es gedacht ist

👀 Siehe auch

Gerüst-Framework behebt Speicher- und Workflow-Probleme von Claude Code

Ich habe OpenClaws Standard-Markdown-Speicher entfernt und stattdessen eine Node.js/Postgres-API-Schicht erstellt

Outworked v0.3.0 fügt iMessage-Unterstützung, einen integrierten Browser und Terminplanung für Claude Code-Agents hinzu.

Kriminalteam: Multi-Agent-Orchestrator für OpenClaw — Parallele Code-Überprüfung mit Coder-Agent