Lokaler MCP-Speicher mit KI-Konsolidierung für Gespräche

Was das ist

Ein Entwickler hat ein lokales Speichersystem für KI-Gespräche geschaffen, das Informationen konsolidiert und synthetisiert, anstatt sie nur zu speichern. Als MCP-Server aufgebaut, funktioniert es mit kompatiblen Clients wie Claude Desktop und Claude Code und läuft zu 100 % lokal, ohne dass Daten Ihre Hardware verlassen.

Wie es funktioniert

Der entscheidende Unterschied zu herkömmlichen RAG-Systemen ist der Konsolidierungsprozess. Alle 6 Stunden gruppiert eine lokale LLM (Qwen 2.5-7B, die in LM Studio läuft) aktuelle Erinnerungen nach Themen und fasst sie zu strukturierten Wissensdokumenten zusammen. Sie extrahiert Fakten, Lösungen und Präferenzen, vereint sie mit bestehendem Wissen und versioniert alles.

Technischer Stack

Embeddings: nomic-embed-text-v1.5 über LM Studio
Vektorsuche: FAISS (semantisch + Keyword-Hybrid)
Konsolidierungs-LLM: Qwen 2.5-7B (Q4) über LM Studio
Speicher: SQLite für Episoden, FAISS für Vektoren
Protokoll: MCP – funktioniert mit allem, was es unterstützt
Konfiguration: TOML

Funktionen

Semantische Deduplizierung mit Kosinus-Ähnlichkeitsschwelle von 0,95
Adaptives Überraschungs-Scoring – häufig genutzte Erinnerungen werden verstärkt, veraltete verblassen
Atomare Schreibvorgänge mit tempfile + os.replace für Absturzschutz
Tombstone-basierte FAISS-Löschung – O(1) anstatt den gesamten Index neu aufzubauen
Graceful Degradation – wenn LM Studio ausfällt, funktioniert die Speicherung weiter, Konsolidierung pausiert
88 Tests bestanden

MCP-Tools

memory_store – speichere eine Episode mit Typ, Tags, Überraschungs-Score
memory_recall – semantische Suche über Episoden + konsolidiertes Wissen
memory_forget – markiere eine Episode zur Entfernung
memory_correct – aktualisiere ein Wissensdokument
memory_export – vollständiges JSON-Backup
memory_status – Systemstatusprüfung

Warum MCP gewählt wurde

Modelle werden häufig ersetzt, aber angesammeltes Wissen sollte nicht mit ihnen verschwinden. MCP macht den Speicher portabel – ein Speicher, viele Schnittstellen. Die Speicherschicht wird wertvoller als jedes einzelne Modell.

Praktische Ergebnisse

Nach etwa einer Woche Nutzung hat das System Wissensdokumente über PC-Hardware, VR-Einrichtung, Programmierpräferenzen und Projektarchitekturen aufgebaut – alles aus normalen Gesprächen synthetisiert. Wenn neue Chats beginnen, kennt die KI bereits den Kontext des Nutzers, ohne dass er ihn neu erklären muss.

Anforderungen

Python 3.11+
LM Studio mit geladenem Qwen 2.5-7B und nomic-embed-text-v1.5
Beliebiger MCP-Client

📖 Read the full source: r/LocalLLaMA

Lokales MCP-Speichersystem mit Konsolidierung für KI-Gespräche

Was das ist

Wie es funktioniert

Technischer Stack

Funktionen

MCP-Tools

Warum MCP gewählt wurde

Praktische Ergebnisse

Anforderungen

👀 Siehe auch

Claude Code Dynamische Arbeitsabläufe: Parallele Unteragenten & UltraCode-Modus

Schild: Open-Source-Sicherheits-Plugin für Claude Code mit einheitlicher Überprüfung

MTP + Unified Memory steigert llama.cpp Inferenz um 30% auf RTX 5090

Foreman: Open-Source-Slack-Bot für die Fernsteuerung von lokalem Claude-Code