Claude Persistenter Speicher: MCP + Qdrant, 39ms, 82% Tokenreduktion

Ein Reddit-Nutzer hat eine lokale persistente Gedächtnisschicht für Claude entwickelt, die das Null-Kontext-Problem zwischen Sitzungen löst. Der Stack läuft vollständig lokal (keine Cloud, keine API-Schlüssel) und wird über MCP integriert. Wichtige Architektur: vier Schichten (L0 Append-Only-Ereignisprotokoll in SQLite, L1 strukturierte Fakten zurückgestellt, L2/L3 Wiki-Prosa, L4 kristallisierte Sitzungsknoten mit Zusammenfassung + Entscheidungen + offenen Threads), Qdrant Docker für Vektorsuche, llama.cpp mit Qwen3-Embedding-4B auf GPU und Qwen3.5-2B-Q4_K_M auf CPU für Embedding und Chat, und ein FastMCP-Server, der 7 Werkzeuge bereitstellt (retrieve, crystallize_session, list_sessions, get_l4_node, index_status, reindex, shutdown_models).

Zahlen

Token-Reduktion vs. grep+Read-Baseline: 82,7 % Mittelwert, 86,2 % Median.
Abruf-F1: 0,50 vs. 0,20 Baseline.
Embed-Kaltstart ~4s; Hot-Path p95 39ms (vor Bugfix 2241ms).
L4-Sitzungsabruf-Bewertung: 0,920 Mittelwert (Schwelle 0,6).
738 Chunks indiziert über 104 Markdown-Dateien.

Wichtige Erkenntnis: Verbindungswiederverwendung unter Windows

Der Hot-Path-Abruf blieb selbst mit GPU-residentem Embedding auf einer 4070 Ti Super bei 2241ms p95 stecken. Die Ursache: Jedes httpx.post() öffnete eine neue TCP-Verbindung, und Windows-Localhost-Handshakes dauerten etwa 2 Sekunden. Der Wechsel zu einem persistenten httpx.Client mit Keep-Alive senkte den p95 auf 39 ms – eine 57-fache Beschleunigung.

Weitere Überraschungen

Qwen3-Denkmodus: Wenn enable_thinking nicht über chat_template_kwargs: {enable_thinking: false} mit --jinja auf dem llama-Server deaktiviert wird, verbraucht das Modell das gesamte Token-Budget für Denkblöcke und gibt leere Inhalte aus.
MCP-Registrierung: Claude Desktop's agentischer Modus (Cowork) liest eine Plugin-Konfigurationsdatei, nicht ~/.claude.json. Der LKS-Dienst muss als ordentliches Cowork-.plugin-Bundle verpackt werden.

Für wen es gedacht ist

Entwickler, die Claude intensiv nutzen und eine kosteneffiziente, private, lokale Gedächtnisschicht wünschen, die den Kontext über Sitzungen hinweg beibehält, ohne Cloud-Abhängigkeiten.

📖 Vollständige Quelle lesen: r/ClaudeAI

Persistenter Speicher für Claude: Lokaler Stack mit MCP, 39ms Abruf, 82% Tokenreduktion

Zahlen

Wichtige Erkenntnis: Verbindungswiederverwendung unter Windows

Weitere Überraschungen

Für wen es gedacht ist

👀 Siehe auch

Verbesserung der Claude-Code-Sitzungen mit claude-self-improve

BrightBean Studio: Open-Source-Plattform für Social-Media-Management, entwickelt mit KI-Agenten

JobPilot: Claude Code-Plugin für automatisierte Jobbewerbungen

Forscher entwickelt Wahrheitsprüfungs-Funktion für Claude Code, findet Hallucinationen in eigener Dokumentation