Memoria Persistente para Claude: Stack Local con MCP, Recuperación de 39ms, Reducción del 82% de Tokens

✍️ OpenClawRadar📅 Publicado: 8 de mayo de 2026🔗 Source
Memoria Persistente para Claude: Stack Local con MCP, Recuperación de 39ms, Reducción del 82% de Tokens
Ad

Un usuario de Reddit construyó una capa de memoria persistente local para Claude que resuelve el problema de contexto cero entre sesiones. La pila se ejecuta completamente en local (sin nube, sin claves API) y se integra mediante MCP. Arquitectura clave: cuatro capas (L0 registro de eventos de solo añadido en SQLite, L1 hechos estructurados diferidos, L2/L3 prosa wiki, L4 nodos de sesión cristalizados con resumen + decisiones + hilos abiertos), Qdrant Docker para búsqueda vectorial, llama.cpp con Qwen3-Embedding-4B en GPU y Qwen3.5-2B-Q4_K_M en CPU para incrustación y chat, y un servidor FastMCP que expone 7 herramientas (retrieve, crystallize_session, list_sessions, get_l4_node, index_status, reindex, shutdown_models).

Números

  • Reducción de tokens frente a línea base grep+Read: 82.7% media, 86.2% mediana.
  • F1 de recuperación: 0.50 frente a 0.20 línea base.
  • Arranque en frío de incrustación ~4s; p95 en ruta caliente 39ms (era 2241ms antes de la corrección de error).
  • Evaluación de recuperación de sesión L4: puntuación media 0.920 (umbral 0.6).
  • 738 fragmentos indexados en 104 archivos markdown.
Ad

Lección Clave: Reutilización de Conexión en Windows

La recuperación en ruta caliente estaba atascada en 2241ms p95 incluso con incrustación residente en GPU en una 4070 Ti Super. La causa: cada httpx.post() abría una nueva conexión TCP, y los handshakes de localhost en Windows tomaban ~2 segundos. Cambiar a un httpx.Client persistente con keep-alive redujo el p95 a 39ms, una aceleración de 57×.

Otras Sorpresas

  • Modo de pensamiento de Qwen3: Si enable_thinking no está deshabilitado mediante chat_template_kwargs: {enable_thinking: false} con --jinja en llama-server, el modelo gasta todo el presupuesto de tokens en bloques de pensamiento y genera contenido vacío.
  • Registro MCP: El modo agente de Claude Desktop (Cowork) lee un archivo de configuración de plugin, no ~/.claude.json. El servicio LKS debe empaquetarse como un paquete .plugin de Cowork adecuado.

Para Quién Es

Desarrolladores que usan Claude intensivamente y desean una capa de memoria local, privada y rentable que mantenga el contexto entre sesiones sin dependencias en la nube.

📖 Lee la fuente completa: r/ClaudeAI

Ad

👀 Ver también

La bóveda de markdown de código abierto le da a Claude memoria persistente entre sesiones.
Herramientas

La bóveda de markdown de código abierto le da a Claude memoria persistente entre sesiones.

Mi Cerebro Portátil es una estructura de bóveda en formato markdown con una capa de tiempo de ejecución de agente que proporciona a Claude un contexto persistente sobre identidad, proyectos, objetivos, CRM y planes semanales. Funciona de forma nativa con Claude Code y Claude Cowork, utiliza archivos markdown simples y ejecuta scripts en segundo plano cada noche para mantener el contexto actualizado.

OpenClawRadar
Claude Banana: Un complemento de Claude Code para la generación de imágenes con conciencia del sistema de diseño.
Herramientas

Claude Banana: Un complemento de Claude Code para la generación de imágenes con conciencia del sistema de diseño.

Claude Banana es un complemento de Claude Code que genera imágenes utilizando la API Gemini de Google con elaboración de prompts consciente del contexto. Lee configuraciones de Tailwind, variables CSS, tokens de diseño y activos existentes para comprender los estilos visuales del proyecto.

OpenClawRadar
Centro de Comando Claude: Panel de Control de Código Abierto para Análisis de Claude
Herramientas

Centro de Comando Claude: Panel de Control de Código Abierto para Análisis de Claude

Claude Command Center es un panel de control local que lee tu directorio ~/.claude/ para mostrar datos de sesiones de Claude Code, costos y configuraciones de servidores MCP. Construido completamente usando Claude Code con un backend Express y un frontend React, no requiere configuración y se ejecuta localmente sin nube ni telemetría.

OpenClawRadar
Coding-Flashcards: más de 800 tarjetas Anki para Rust, SQLite, Godot y Wolfram Language
Herramientas

Coding-Flashcards: más de 800 tarjetas Anki para Rust, SQLite, Godot y Wolfram Language

Más de 800 tarjetas didácticas en Markdown que cubren Rust, SQLite, Godot y el lenguaje Wolfram desde primeros principios, con scripts para convertir a mazos de Anki o PDFs.

OpenClawRadar