Claude Mémoire Persistante : Récupération 39 ms, -82% Tokens

Un utilisateur de Reddit a construit une couche mémoire persistante locale pour Claude qui résout le problème de contexte zéro entre les sessions. La pile fonctionne entièrement en local (pas de cloud, pas de clés API) et s'intègre via MCP. Architecture clé : quatre couches (L0 journal d'événements en ajout seul dans SQLite, L1 faits structurés différés, L2/L3 prose wiki, L4 nœuds de session cristallisés avec résumé + décisions + fils ouverts), Qdrant Docker pour la recherche vectorielle, llama.cpp avec Qwen3-Embedding-4B sur GPU et Qwen3.5-2B-Q4_K_M sur CPU pour l'embedding et le chat, et un serveur FastMCP exposant 7 outils (retrieve, crystallize_session, list_sessions, get_l4_node, index_status, reindex, shutdown_models).

Chiffres

Réduction de tokens par rapport à la référence grep+Read : 82,7 % en moyenne, 86,2 % en médiane.
F1 de récupération : 0,50 contre 0,20 pour la référence.
Démarrage à froid de l'embedding ~4 s ; hot-path p95 39 ms (était 2241 ms avant correction de bug).
Évaluation de récupération de session L4 : score moyen 0,920 (seuil 0,6).
738 morceaux indexés dans 104 fichiers markdown.

Leçon clé : Réutilisation des connexions sous Windows

Le hot-path retrieve restait bloqué à 2241 ms p95 même avec un embedding résidant sur GPU sur une 4070 Ti Super. La cause : chaque httpx.post() ouvrait une nouvelle connexion TCP, et les poignées de main localhost sous Windows prenaient environ 2 secondes. Le passage à un httpx.Client persistant avec keep-alive a fait chuter le p95 à 39 ms — un gain de vitesse de 57×.

Autres surprises

Mode réflexion Qwen3 : Si enable_thinking n'est pas désactivé via chat_template_kwargs: {enable_thinking: false} avec --jinja sur llama-server, le modèle dépense tout son budget de tokens en blocs de réflexion et produit un contenu vide.
Enregistrement MCP : Le mode agentique de Claude Desktop (Cowork) lit un fichier de configuration de plugin, pas ~/.claude.json. Le service LKS doit être empaqueté comme un véritable bundle .plugin Cowork.

À qui cela s'adresse

Développeurs qui utilisent Claude intensivement et souhaitent une couche mémoire locale, privée et économique, qui maintienne le contexte entre les sessions sans dépendances cloud.

📖 Lire la source complète : r/ClaudeAI