Système de mémoire MCP local avec consolidation pour les conversations d'IA

Ce que c'est
Un développeur a créé un système de mémoire locale pour les conversations d'IA qui consolide et synthétise les informations plutôt que de simplement les stocker. Construit comme un serveur MCP, il fonctionne avec des clients compatibles comme Claude Desktop et Claude Code, fonctionnant à 100 % localement sans que les données ne quittent votre matériel.
Comment ça fonctionne
Le principal différentiateur par rapport aux systèmes RAG standard est le processus de consolidation. Toutes les 6 heures, un LLM local (Qwen 2.5-7B fonctionnant dans LM Studio) regroupe les souvenirs récents par sujet et les consolide en documents de connaissances structurés. Il extrait des faits, des solutions et des préférences, les fusionne avec les connaissances existantes et versionne le tout.
Stack technique
- Embeddings : nomic-embed-text-v1.5 via LM Studio
- Recherche vectorielle : FAISS (hybride sémantique + mots-clés)
- LLM de consolidation : Qwen 2.5-7B (Q4) via LM Studio
- Stockage : SQLite pour les épisodes, FAISS pour les vecteurs
- Protocole : MCP — fonctionne avec tout ce qui le supporte
- Configuration : TOML
Fonctionnalités
- Déduplication sémantique avec un seuil de similarité cosinus de 0,95
- Score de surprise adaptatif — les souvenirs fréquemment consultés sont boostés, les obsolètes s'estompent
- Écritures atomiques avec tempfile + os.replace pour la protection contre les plantages
- Suppression FAISS basée sur des tombstones — O(1) au lieu de reconstruire tout l'index
- Dégradation gracieuse — si LM Studio tombe, le stockage fonctionne toujours, la consolidation est mise en pause
- 88 tests réussis
Outils MCP
memory_store— enregistrer un épisode avec type, étiquettes, score de surprisememory_recall— recherche sémantique à travers les épisodes + connaissances consolidéesmemory_forget— marquer un épisode pour suppressionmemory_correct— mettre à jour un document de connaissancememory_export— sauvegarde JSON complètememory_status— vérification de l'état
Pourquoi MCP a été choisi
Les modèles sont fréquemment remplacés, mais les connaissances accumulées ne devraient pas disparaître avec eux. MCP rend la mémoire portable — un seul stockage, de nombreuses interfaces. La couche mémoire devient plus précieuse que n'importe quel modèle individuel.
Résultats pratiques
Après environ une semaine d'utilisation, le système a construit des documents de connaissances sur le matériel PC, la configuration VR, les préférences de codage et les architectures de projet — tous synthétisés à partir de conversations normales. Lors du démarrage de nouvelles discussions, l'IA connaît déjà le contexte de l'utilisateur sans qu'il ait besoin de se réexpliquer.
Exigences
- Python 3.11+
- LM Studio avec Qwen 2.5-7B et nomic-embed-text-v1.5 chargés
- N'importe quel client MCP
📖 Lire la source complète : r/LocalLLaMA
👀 See Also

Dépannage de l'accès aux e-mails et à Google Drive pour les agents IA
La configuration de l'accès aux e-mails et à Google Drive pour les bots d'IA sur AWS peut déclencher des blocages de compte. Voici une solution utilisant Gmail et les domaines Workspace.

Conception du Harnais Multi-Agent d'Anthropic pour Améliorer la Qualité du Code de Claude
L'article de blog d'Anthropic détaille une conception de harnais utilisant plusieurs agents pour résoudre l'anxiété contextuelle et le biais d'auto-évaluation de Claude, avec des rôles d'agents spécifiques et des critères de notation pour le développement frontend et full-stack.

Biais Logit Toroïdal : Une Astuce Simple au Moment de l'Inférence Réduit les Hallucinations de 40 %
Une nouvelle méthode projette les tokens sur un tore et amplifie les logits voisins, réduisant les erreurs factuelles sans fine-tuning ni RAG.

Compétence Claude Code open-source /unzuck organise les flux des réseaux sociaux en tableau de bord
Une compétence Claude Code gratuite et open-source appelée /unzuck analyse simultanément les flux de Hacker News, Reddit, LinkedIn, YouTube, Twitter/X, Instagram et Facebook grâce à l'automatisation du navigateur, évalue les éléments par rapport aux profils d'intérêt des utilisateurs et génère des tableaux de bord HTML interactifs.