Mémoire persistante pour Claude : Stack local avec MCP, récupération en 39 ms, réduction de tokens de 82 %

✍️ OpenClawRadar📅 Publié: May 8, 2026🔗 Source
Mémoire persistante pour Claude : Stack local avec MCP, récupération en 39 ms, réduction de tokens de 82 %
Ad

Un utilisateur de Reddit a construit une couche mémoire persistante locale pour Claude qui résout le problème de contexte zéro entre les sessions. La pile fonctionne entièrement en local (pas de cloud, pas de clés API) et s'intègre via MCP. Architecture clé : quatre couches (L0 journal d'événements en ajout seul dans SQLite, L1 faits structurés différés, L2/L3 prose wiki, L4 nœuds de session cristallisés avec résumé + décisions + fils ouverts), Qdrant Docker pour la recherche vectorielle, llama.cpp avec Qwen3-Embedding-4B sur GPU et Qwen3.5-2B-Q4_K_M sur CPU pour l'embedding et le chat, et un serveur FastMCP exposant 7 outils (retrieve, crystallize_session, list_sessions, get_l4_node, index_status, reindex, shutdown_models).

Chiffres

  • Réduction de tokens par rapport à la référence grep+Read : 82,7 % en moyenne, 86,2 % en médiane.
  • F1 de récupération : 0,50 contre 0,20 pour la référence.
  • Démarrage à froid de l'embedding ~4 s ; hot-path p95 39 ms (était 2241 ms avant correction de bug).
  • Évaluation de récupération de session L4 : score moyen 0,920 (seuil 0,6).
  • 738 morceaux indexés dans 104 fichiers markdown.
Ad

Leçon clé : Réutilisation des connexions sous Windows

Le hot-path retrieve restait bloqué à 2241 ms p95 même avec un embedding résidant sur GPU sur une 4070 Ti Super. La cause : chaque httpx.post() ouvrait une nouvelle connexion TCP, et les poignées de main localhost sous Windows prenaient environ 2 secondes. Le passage à un httpx.Client persistant avec keep-alive a fait chuter le p95 à 39 ms — un gain de vitesse de 57×.

Autres surprises

  • Mode réflexion Qwen3 : Si enable_thinking n'est pas désactivé via chat_template_kwargs: {enable_thinking: false} avec --jinja sur llama-server, le modèle dépense tout son budget de tokens en blocs de réflexion et produit un contenu vide.
  • Enregistrement MCP : Le mode agentique de Claude Desktop (Cowork) lit un fichier de configuration de plugin, pas ~/.claude.json. Le service LKS doit être empaqueté comme un véritable bundle .plugin Cowork.

À qui cela s'adresse

Développeurs qui utilisent Claude intensivement et souhaitent une couche mémoire locale, privée et économique, qui maintienne le contexte entre les sessions sans dépendances cloud.

📖 Lire la source complète : r/ClaudeAI

Ad

👀 See Also

ViralCanvas.ai fournit un espace de travail à contexte persistant pour les modèles Claude, y compris Sonnet 4.5.
Tools

ViralCanvas.ai fournit un espace de travail à contexte persistant pour les modèles Claude, y compris Sonnet 4.5.

ViralCanvas.ai est un espace de travail visuel qui s'appuie sur les modèles de Claude, offrant un accès à Sonnet 4.5, Sonnet 4.6, Opus 4.5 et Opus 4.6 avec un attachement de contexte persistant. L'outil résout les problèmes de dégradation du contexte dans les conversations longues en maintenant les documents connectés activement pondérés à chaque prompt.

OpenClawRadar
Palissade : Un Nouvel Outil d'Orchestration pour le Code Claude avec Support des Canaux et Couches de Sécurité
Tools

Palissade : Un Nouvel Outil d'Orchestration pour le Code Claude avec Support des Canaux et Couches de Sécurité

Stockade est un outil d'orchestration construit autour du SDK Agent d'Anthropic qui fournit une gestion de session basée sur les canaux, un contrôle d'accès basé sur les rôles (RBAC) et des autorisations granulaires pour les agents IA. Il répond aux limitations d'OpenClaw et de NanoClaw en offrant plus de contrôle tout en maintenant la sécurité grâce à la conteneurisation et aux mandataires d'identification.

OpenClawRadar
Chapper : Client iOS natif pour LM Studio, Ollama et les modèles locaux compatibles OpenAI
Tools

Chapper : Client iOS natif pour LM Studio, Ollama et les modèles locaux compatibles OpenAI

Chapper est une application iOS native SwiftUI qui se connecte à LM Studio, Ollama et aux modèles locaux compatibles OpenAI sans services cloud ni comptes. Il offre un streaming de tokens en temps réel, des contrôles d'échantillonnage complets, la prise en charge des modèles de raisonnement avec des balises <think>, et l'exportation dans 7 formats.

OpenClawRadar
Sandra : MCP de mémoire graphique persistante open-source pour Claude
Tools

Sandra : MCP de mémoire graphique persistante open-source pour Claude

Sandra est un backend mémoire graphe + vecteur avec un serveur MCP natif qui donne à Claude une mémoire structurée persistante entre les sessions, prenant en charge la recherche exacte, floue et sémantique.

OpenClawRadar