Merlin: Lokaler LLM-Kontext-Dedup – misst bis zu 71% Chunk-Überlappung, kostenlos & Open-Core

Der Autor hat Merlin veröffentlicht, ein lokales Deduplizierungswerkzeug für LLM-Kontextfenster. Benchmarks über 22 Millionen Passagen aus echten Agenten-Sitzungen und RAG-Pipelines zeigen 22% doppelte Inhalte in typischen Agenten-Kontexten und bis zu 71% bei RAG-lastigen Abfragen. Bei lokalen Modellen mit 8K/16K/32K Kontext bedeutet das Entfernen dieser Redundanz, dass mehr nützliche Tokens vor dem Abschneiden Platz finden.
Drei Integrationsmodi
1. HTTP-Proxy-Modus
Am besten geeignet für Ollama, vLLM, SGLang, OpenWebUI, llama.cpp Server oder alles mit einem OpenAI-kompatiblen Endpunkt. Starten Sie den Proxy lokal und leiten Sie Ihren Client an http://localhost:8787/v1 statt direkt an Ihren Modellserver. Die Deduplizierung auf Chunk-Ebene erfolgt in der ausgehenden Anfrage, bevor sie das Modell erreicht.
Standardmäßig cache-bewusst: Das Gesprächspräfix bleibt unberührt (damit vLLM/SGLang Präfix-Caching weiterhin funktioniert) und nur die neueste Benutzernachricht wird dedupliziert. Es gibt einen optionalen aggressiven Modus, wenn Ihre Cache-Trefferquote bereits niedrig ist.
2. MCP-Server
Für Claude Desktop, Claude Code, OpenClaw, Cursor. Stellt folgende Werkzeuge bereit:
merlin_dedupe– Text deduplizierenmerlin_dedupe_file– Dateiinhalte deduplizierenmerlin_savings_summary– Statistiken anzeigenmerlin_status– Dienst überprüfen
Diese Werkzeuge werden nicht automatisch aufgerufen; Sie müssen das Modell anweisen, sie bei großen Einfügungen zu verwenden.
3. Eigenständiges CLI
Für Shell-Pipelines und Vorverarbeitung. Single-Threaded, ~250 KB Binary, keine Laufzeitabhängigkeiten, keine Netzwerkaufrufe. Nimmt eine Positional-Eingabedatei und schreibt deduplizierte Zeilen via --output-dedup=path.txt.
Installation (ein Befehl pro Setup)
curl -LO https://github.com/corbenicai/merlin-community/releases/latest/download/merlin-community.zip
unzip merlin-community.zip && cd merlin-community
python shared/install_helpers.py <integration> enable
Wobei <integration> durch claude_desktop, claude_code, openclaw, cursor oder proxy ersetzt wird.
Messungen & Abwägungen
- Papiere: arXiv:2605.09611 (Architektur), arXiv:2605.09990 (22M-Passagen-Messung), Zenodo: 10.5281/zenodo.20090991
- Community-Stufen-Obergrenzen: 50 MB pro Lauf, 200 MB pro Tag, 2 GB pro Monat. Lehnt übermäßig große Arbeiten sauber ab (getestet mit einer 51 MB großen Datei). Hobby-Nutzung ist in Ordnung.
- Open-Core: Das öffentliche Repository ist die Community-Edition; es existiert eine separate Closed-Source Pro-Engine für Hochdurchsatz-Server.
- Behebt nicht die Sitzungsfragmentierung, bei der die gesamte Unterhaltung bei jedem Durchlauf wiederholt wird – das ist ein Orchestrierungsproblem außerhalb des Anwendungsbereichs dieses Tools.
- Binary-Verfügbarkeit: Windows x64 in v0.2.1. Linux + macOS CI-Pipeline in Arbeit.
Für wen es gedacht ist
Benutzer lokaler LLMs, die Agents oder RAG mit Ollama, vLLM, SGLang, llama.cpp oder einem beliebigen OpenAI-kompatiblen Backend betreiben und mehr echte Tokens in begrenzte Kontextfenster packen möchten.
📖 Vollständige Quelle lesen: r/LocalLLaMA
👀 Siehe auch

Octopoda: Open-Source-Speicherschicht für lokale KI-Agenten
Octopoda ist eine Open-Source-Gedächtnisschicht, die lokalen KI-Agenten persistente Erinnerungen zwischen Sitzungen, semantische Suche, Schleifenerkennung und Absturzwiederherstellung bietet. Es läuft vollständig offline mit einem 33 MB großen Embedding-Modell und integriert sich mit LangChain, CrewAI, AutoGen und dem OpenAI Agents SDK.

Pepper MCP Server für iOS-Simulator-Interaktion und -Debugging
Pepper ist ein MCP-Server, der eine dylib über DYLD_INSERT_LIBRARIES in iOS-Simulator-Apps injiziert und Echtzeit-Interaktion, Bildschirmlesen, Button-Tippen, Variableninspektion und Netzwerkverkehrsüberwachung durch eine WebSocket-Brücke ermöglicht.
Spine Swarm: Multi-Agenten-KI-System auf visueller Leinwand für Nicht-Programmier-Projekte
Spine Swarm ist ein Multi-Agenten-System, das auf einer unendlichen visuellen Leinwand arbeitet, um komplexe Nicht-Codierungsprojekte wie Wettbewerbsanalysen, Finanzmodellierung, SEO-Audits, Pitch Decks und interaktive Prototypen abzuschließen. Das System verwendet Blöcke als Abstraktionen über KI-Modellen, die verbunden werden können, um Kontext zwischen verschiedenen Modelltypen weiterzugeben.

OpenClaw-Benutzer erstellt 'feelslikeclaude'-Skill, um das Arbeitsablaufverhalten von ChatGPT-Agenten zu verbessern
Ein Entwickler wechselte sein OpenClaw-Setup von Claude zu ChatGPT und stellte fest, dass der Hauptunterschied nicht im Schreibstil oder Ton lag, sondern im Workflow-Verhalten. Er erstellte eine Clawhub-Fähigkeit namens 'feelslikeclaude', um ChatGPT zu besseren Ausführungsgewohnheiten zu lenken.