Serveur MCP local : mémoire persistante avec Qwen 2.5-7B

Ce que c'est

Un développeur a créé un système de mémoire locale pour les conversations d'IA qui consolide et synthétise les informations plutôt que de simplement les stocker. Construit comme un serveur MCP, il fonctionne avec des clients compatibles comme Claude Desktop et Claude Code, fonctionnant à 100 % localement sans que les données ne quittent votre matériel.

Comment ça fonctionne

Le principal différentiateur par rapport aux systèmes RAG standard est le processus de consolidation. Toutes les 6 heures, un LLM local (Qwen 2.5-7B fonctionnant dans LM Studio) regroupe les souvenirs récents par sujet et les consolide en documents de connaissances structurés. Il extrait des faits, des solutions et des préférences, les fusionne avec les connaissances existantes et versionne le tout.

Stack technique

Embeddings : nomic-embed-text-v1.5 via LM Studio
Recherche vectorielle : FAISS (hybride sémantique + mots-clés)
LLM de consolidation : Qwen 2.5-7B (Q4) via LM Studio
Stockage : SQLite pour les épisodes, FAISS pour les vecteurs
Protocole : MCP — fonctionne avec tout ce qui le supporte
Configuration : TOML

Fonctionnalités

Déduplication sémantique avec un seuil de similarité cosinus de 0,95
Score de surprise adaptatif — les souvenirs fréquemment consultés sont boostés, les obsolètes s'estompent
Écritures atomiques avec tempfile + os.replace pour la protection contre les plantages
Suppression FAISS basée sur des tombstones — O(1) au lieu de reconstruire tout l'index
Dégradation gracieuse — si LM Studio tombe, le stockage fonctionne toujours, la consolidation est mise en pause
88 tests réussis

Outils MCP

memory_store — enregistrer un épisode avec type, étiquettes, score de surprise
memory_recall — recherche sémantique à travers les épisodes + connaissances consolidées
memory_forget — marquer un épisode pour suppression
memory_correct — mettre à jour un document de connaissance
memory_export — sauvegarde JSON complète
memory_status — vérification de l'état

Pourquoi MCP a été choisi

Les modèles sont fréquemment remplacés, mais les connaissances accumulées ne devraient pas disparaître avec eux. MCP rend la mémoire portable — un seul stockage, de nombreuses interfaces. La couche mémoire devient plus précieuse que n'importe quel modèle individuel.

Résultats pratiques

Après environ une semaine d'utilisation, le système a construit des documents de connaissances sur le matériel PC, la configuration VR, les préférences de codage et les architectures de projet — tous synthétisés à partir de conversations normales. Lors du démarrage de nouvelles discussions, l'IA connaît déjà le contexte de l'utilisateur sans qu'il ait besoin de se réexpliquer.