Merlin: Lokaler LLM-Kontext-Dedup – misst bis zu 71% Chunk-Überlappung, kostenlos & Open-Core

✍️ OpenClawRadar📅 Veröffentlicht: 13. Mai 2026🔗 Source
Merlin: Lokaler LLM-Kontext-Dedup – misst bis zu 71% Chunk-Überlappung, kostenlos & Open-Core
Ad

Der Autor hat Merlin veröffentlicht, ein lokales Deduplizierungswerkzeug für LLM-Kontextfenster. Benchmarks über 22 Millionen Passagen aus echten Agenten-Sitzungen und RAG-Pipelines zeigen 22% doppelte Inhalte in typischen Agenten-Kontexten und bis zu 71% bei RAG-lastigen Abfragen. Bei lokalen Modellen mit 8K/16K/32K Kontext bedeutet das Entfernen dieser Redundanz, dass mehr nützliche Tokens vor dem Abschneiden Platz finden.

Drei Integrationsmodi

1. HTTP-Proxy-Modus

Am besten geeignet für Ollama, vLLM, SGLang, OpenWebUI, llama.cpp Server oder alles mit einem OpenAI-kompatiblen Endpunkt. Starten Sie den Proxy lokal und leiten Sie Ihren Client an http://localhost:8787/v1 statt direkt an Ihren Modellserver. Die Deduplizierung auf Chunk-Ebene erfolgt in der ausgehenden Anfrage, bevor sie das Modell erreicht.

Standardmäßig cache-bewusst: Das Gesprächspräfix bleibt unberührt (damit vLLM/SGLang Präfix-Caching weiterhin funktioniert) und nur die neueste Benutzernachricht wird dedupliziert. Es gibt einen optionalen aggressiven Modus, wenn Ihre Cache-Trefferquote bereits niedrig ist.

2. MCP-Server

Für Claude Desktop, Claude Code, OpenClaw, Cursor. Stellt folgende Werkzeuge bereit:

  • merlin_dedupe – Text deduplizieren
  • merlin_dedupe_file – Dateiinhalte deduplizieren
  • merlin_savings_summary – Statistiken anzeigen
  • merlin_status – Dienst überprüfen

Diese Werkzeuge werden nicht automatisch aufgerufen; Sie müssen das Modell anweisen, sie bei großen Einfügungen zu verwenden.

3. Eigenständiges CLI

Für Shell-Pipelines und Vorverarbeitung. Single-Threaded, ~250 KB Binary, keine Laufzeitabhängigkeiten, keine Netzwerkaufrufe. Nimmt eine Positional-Eingabedatei und schreibt deduplizierte Zeilen via --output-dedup=path.txt.

Ad

Installation (ein Befehl pro Setup)

curl -LO https://github.com/corbenicai/merlin-community/releases/latest/download/merlin-community.zip
unzip merlin-community.zip && cd merlin-community
python shared/install_helpers.py <integration> enable

Wobei <integration> durch claude_desktop, claude_code, openclaw, cursor oder proxy ersetzt wird.

Messungen & Abwägungen

  • Papiere: arXiv:2605.09611 (Architektur), arXiv:2605.09990 (22M-Passagen-Messung), Zenodo: 10.5281/zenodo.20090991
  • Community-Stufen-Obergrenzen: 50 MB pro Lauf, 200 MB pro Tag, 2 GB pro Monat. Lehnt übermäßig große Arbeiten sauber ab (getestet mit einer 51 MB großen Datei). Hobby-Nutzung ist in Ordnung.
  • Open-Core: Das öffentliche Repository ist die Community-Edition; es existiert eine separate Closed-Source Pro-Engine für Hochdurchsatz-Server.
  • Behebt nicht die Sitzungsfragmentierung, bei der die gesamte Unterhaltung bei jedem Durchlauf wiederholt wird – das ist ein Orchestrierungsproblem außerhalb des Anwendungsbereichs dieses Tools.
  • Binary-Verfügbarkeit: Windows x64 in v0.2.1. Linux + macOS CI-Pipeline in Arbeit.

Für wen es gedacht ist

Benutzer lokaler LLMs, die Agents oder RAG mit Ollama, vLLM, SGLang, llama.cpp oder einem beliebigen OpenAI-kompatiblen Backend betreiben und mehr echte Tokens in begrenzte Kontextfenster packen möchten.

📖 Vollständige Quelle lesen: r/LocalLLaMA

Ad

👀 Siehe auch

Octopoda: Open-Source-Speicherschicht für lokale KI-Agenten
Werkzeuge

Octopoda: Open-Source-Speicherschicht für lokale KI-Agenten

Octopoda ist eine Open-Source-Gedächtnisschicht, die lokalen KI-Agenten persistente Erinnerungen zwischen Sitzungen, semantische Suche, Schleifenerkennung und Absturzwiederherstellung bietet. Es läuft vollständig offline mit einem 33 MB großen Embedding-Modell und integriert sich mit LangChain, CrewAI, AutoGen und dem OpenAI Agents SDK.

OpenClawRadar
Pepper MCP Server für iOS-Simulator-Interaktion und -Debugging
Werkzeuge

Pepper MCP Server für iOS-Simulator-Interaktion und -Debugging

Pepper ist ein MCP-Server, der eine dylib über DYLD_INSERT_LIBRARIES in iOS-Simulator-Apps injiziert und Echtzeit-Interaktion, Bildschirmlesen, Button-Tippen, Variableninspektion und Netzwerkverkehrsüberwachung durch eine WebSocket-Brücke ermöglicht.

OpenClawRadar
🦀
Werkzeuge

Spine Swarm: Multi-Agenten-KI-System auf visueller Leinwand für Nicht-Programmier-Projekte

Spine Swarm ist ein Multi-Agenten-System, das auf einer unendlichen visuellen Leinwand arbeitet, um komplexe Nicht-Codierungsprojekte wie Wettbewerbsanalysen, Finanzmodellierung, SEO-Audits, Pitch Decks und interaktive Prototypen abzuschließen. Das System verwendet Blöcke als Abstraktionen über KI-Modellen, die verbunden werden können, um Kontext zwischen verschiedenen Modelltypen weiterzugeben.

OpenClawRadar
OpenClaw-Benutzer erstellt 'feelslikeclaude'-Skill, um das Arbeitsablaufverhalten von ChatGPT-Agenten zu verbessern
Werkzeuge

OpenClaw-Benutzer erstellt 'feelslikeclaude'-Skill, um das Arbeitsablaufverhalten von ChatGPT-Agenten zu verbessern

Ein Entwickler wechselte sein OpenClaw-Setup von Claude zu ChatGPT und stellte fest, dass der Hauptunterschied nicht im Schreibstil oder Ton lag, sondern im Workflow-Verhalten. Er erstellte eine Clawhub-Fähigkeit namens 'feelslikeclaude', um ChatGPT zu besseren Ausführungsgewohnheiten zu lenken.

OpenClawRadar