Memoria Persistente para Claude: 39ms Recuperación, 82% Menos Tokens

Un usuario de Reddit construyó una capa de memoria persistente local para Claude que resuelve el problema de contexto cero entre sesiones. La pila se ejecuta completamente en local (sin nube, sin claves API) y se integra mediante MCP. Arquitectura clave: cuatro capas (L0 registro de eventos de solo añadido en SQLite, L1 hechos estructurados diferidos, L2/L3 prosa wiki, L4 nodos de sesión cristalizados con resumen + decisiones + hilos abiertos), Qdrant Docker para búsqueda vectorial, llama.cpp con Qwen3-Embedding-4B en GPU y Qwen3.5-2B-Q4_K_M en CPU para incrustación y chat, y un servidor FastMCP que expone 7 herramientas (retrieve, crystallize_session, list_sessions, get_l4_node, index_status, reindex, shutdown_models).

Números

Reducción de tokens frente a línea base grep+Read: 82.7% media, 86.2% mediana.
F1 de recuperación: 0.50 frente a 0.20 línea base.
Arranque en frío de incrustación ~4s; p95 en ruta caliente 39ms (era 2241ms antes de la corrección de error).
Evaluación de recuperación de sesión L4: puntuación media 0.920 (umbral 0.6).
738 fragmentos indexados en 104 archivos markdown.

Lección Clave: Reutilización de Conexión en Windows

La recuperación en ruta caliente estaba atascada en 2241ms p95 incluso con incrustación residente en GPU en una 4070 Ti Super. La causa: cada httpx.post() abría una nueva conexión TCP, y los handshakes de localhost en Windows tomaban ~2 segundos. Cambiar a un httpx.Client persistente con keep-alive redujo el p95 a 39ms, una aceleración de 57×.

Otras Sorpresas

Modo de pensamiento de Qwen3: Si enable_thinking no está deshabilitado mediante chat_template_kwargs: {enable_thinking: false} con --jinja en llama-server, el modelo gasta todo el presupuesto de tokens en bloques de pensamiento y genera contenido vacío.
Registro MCP: El modo agente de Claude Desktop (Cowork) lee un archivo de configuración de plugin, no ~/.claude.json. El servicio LKS debe empaquetarse como un paquete .plugin de Cowork adecuado.

Para Quién Es

Desarrolladores que usan Claude intensivamente y desean una capa de memoria local, privada y rentable que mantenga el contexto entre sesiones sin dependencias en la nube.

📖 Lee la fuente completa: r/ClaudeAI

Memoria Persistente para Claude: Stack Local con MCP, Recuperación de 39ms, Reducción del 82% de Tokens

Números

Lección Clave: Reutilización de Conexión en Windows

Otras Sorpresas

Para Quién Es

👀 Ver también

Agint: Una herramienta CLI en Rust que detecta contradicciones en archivos de instrucciones para agentes de IA

InsForge: Plataforma de Backend de Código Abierto para Agentes de Codificación de IA

Máquina Virtual Lógica: Un Sistema Basado en Prompts para Detener los Colapsos del Razonamiento en LLM

Gemma 4 26B vs Qwen 3.5 27B: Evaluación comparativa de flujos de trabajo empresariales locales en RTX 4090