Persistenter Speicher für Claude: Lokaler Stack mit MCP, 39ms Abruf, 82% Tokenreduktion

✍️ OpenClawRadar📅 Veröffentlicht: 8. Mai 2026🔗 Source
Persistenter Speicher für Claude: Lokaler Stack mit MCP, 39ms Abruf, 82% Tokenreduktion
Ad

Ein Reddit-Nutzer hat eine lokale persistente Gedächtnisschicht für Claude entwickelt, die das Null-Kontext-Problem zwischen Sitzungen löst. Der Stack läuft vollständig lokal (keine Cloud, keine API-Schlüssel) und wird über MCP integriert. Wichtige Architektur: vier Schichten (L0 Append-Only-Ereignisprotokoll in SQLite, L1 strukturierte Fakten zurückgestellt, L2/L3 Wiki-Prosa, L4 kristallisierte Sitzungsknoten mit Zusammenfassung + Entscheidungen + offenen Threads), Qdrant Docker für Vektorsuche, llama.cpp mit Qwen3-Embedding-4B auf GPU und Qwen3.5-2B-Q4_K_M auf CPU für Embedding und Chat, und ein FastMCP-Server, der 7 Werkzeuge bereitstellt (retrieve, crystallize_session, list_sessions, get_l4_node, index_status, reindex, shutdown_models).

Zahlen

  • Token-Reduktion vs. grep+Read-Baseline: 82,7 % Mittelwert, 86,2 % Median.
  • Abruf-F1: 0,50 vs. 0,20 Baseline.
  • Embed-Kaltstart ~4s; Hot-Path p95 39ms (vor Bugfix 2241ms).
  • L4-Sitzungsabruf-Bewertung: 0,920 Mittelwert (Schwelle 0,6).
  • 738 Chunks indiziert über 104 Markdown-Dateien.
Ad

Wichtige Erkenntnis: Verbindungswiederverwendung unter Windows

Der Hot-Path-Abruf blieb selbst mit GPU-residentem Embedding auf einer 4070 Ti Super bei 2241ms p95 stecken. Die Ursache: Jedes httpx.post() öffnete eine neue TCP-Verbindung, und Windows-Localhost-Handshakes dauerten etwa 2 Sekunden. Der Wechsel zu einem persistenten httpx.Client mit Keep-Alive senkte den p95 auf 39 ms – eine 57-fache Beschleunigung.

Weitere Überraschungen

  • Qwen3-Denkmodus: Wenn enable_thinking nicht über chat_template_kwargs: {enable_thinking: false} mit --jinja auf dem llama-Server deaktiviert wird, verbraucht das Modell das gesamte Token-Budget für Denkblöcke und gibt leere Inhalte aus.
  • MCP-Registrierung: Claude Desktop's agentischer Modus (Cowork) liest eine Plugin-Konfigurationsdatei, nicht ~/.claude.json. Der LKS-Dienst muss als ordentliches Cowork-.plugin-Bundle verpackt werden.

Für wen es gedacht ist

Entwickler, die Claude intensiv nutzen und eine kosteneffiziente, private, lokale Gedächtnisschicht wünschen, die den Kontext über Sitzungen hinweg beibehält, ohne Cloud-Abhängigkeiten.

📖 Vollständige Quelle lesen: r/ClaudeAI

Ad

👀 Siehe auch

Equibles: Selbst gehosteter MCP-Server für US-Finanzdaten – SEC-Einreichungen, 13F, Insider-Geschäfte, FRED
Werkzeuge

Equibles: Selbst gehosteter MCP-Server für US-Finanzdaten – SEC-Einreichungen, 13F, Insider-Geschäfte, FRED

Equibles ist ein Open-Source-MCP-Server, der öffentliche US-Finanzdaten (SEC-Einreichungen, 13F, Insider-/Kongressgeschäfte, Short-Daten, FRED) abruft und als MCP-Tools für jeden lokalen LLM-Agenten bereitstellt.

OpenClawRadar
80-zeiliges Python-Skript nutzt Claude, um automatisch interne Linkvorschläge zu generieren und reduziert die Verlinkungszeit von 2 Stunden auf 8 Minuten
Werkzeuge

80-zeiliges Python-Skript nutzt Claude, um automatisch interne Linkvorschläge zu generieren und reduziert die Verlinkungszeit von 2 Stunden auf 8 Minuten

Ein Reddit-Nutzer hat ein 80-zeiliges Python-Skript entwickelt, das einen Artikelentwurf und eine Sitemap an Claude übergibt und relevante interne Linkziele mit vorgeschlagenem Ankertext zurückgibt – wodurch die manuelle Verlinkungszeit von 2 Stunden auf 8 Minuten pro Artikel reduziert wird.

OpenClawRadar
Vergleich von 8 KI-Codierungsmodellen bei der Implementierung realer TypeScript-Funktionen
Werkzeuge

Vergleich von 8 KI-Codierungsmodellen bei der Implementierung realer TypeScript-Funktionen

Ein Entwickler testete 8 KI-Codierungsmodelle bei der Implementierung eines /rename-Befehls in einem Open-Source-TypeScript-Telegram-Bot-Projekt und bewertete sie nach Kosten, Ausführungszeit, Korrektheit und technischer Qualität. GPT-5.4 erzielte die höchste Punktzahl bei der Implementierungskorrektheit, während GLM 5 das beste Preis-Leistungs-Verhältnis bot.

OpenClawRadar
Parallele Claude-Chat-Architektur für die Next.js-Entwicklung
Werkzeuge

Parallele Claude-Chat-Architektur für die Next.js-Entwicklung

Ein Entwickler hat ein System erstellt, um mehrere Claude-AI-Chats gleichzeitig auf derselben Next.js-Codebasis auszuführen, wobei eine gemeinsame Datenbanktabelle und ein Abfrage-Agent verwendet werden. Dabei wurde eine Build-Erfolgsrate von 87 % ohne Merge-Konflikte in einer Sitzung erreicht.

OpenClawRadar