MCP Local Server: Memoria Persistente con Qwen 2.5-7B

Qué es esto

Un desarrollador creó un sistema de memoria local para conversaciones de IA que consolida y sintetiza información en lugar de solo almacenarla. Construido como un servidor MCP, funciona con clientes compatibles como Claude Desktop y Claude Code, ejecutándose 100% localmente sin que los datos salgan de tu hardware.

Cómo funciona

El diferenciador clave respecto a los sistemas RAG estándar es el proceso de consolidación. Cada 6 horas, un LLM local (Qwen 2.5-7B ejecutándose en LM Studio) agrupa recuerdos recientes por tema y los consolida en documentos de conocimiento estructurado. Extrae hechos, soluciones y preferencias, fusionándolos con el conocimiento existente y versionando todo.

Stack técnico

Embeddings: nomic-embed-text-v1.5 vía LM Studio
Búsqueda vectorial: FAISS (híbrido semántico + palabras clave)
LLM de consolidación: Qwen 2.5-7B (Q4) vía LM Studio
Almacenamiento: SQLite para episodios, FAISS para vectores
Protocolo: MCP — funciona con cualquier cosa que lo soporte
Configuración: TOML

Características

Deduplicación semántica con umbral de similitud coseno 0.95
Puntuación de sorpresa adaptativa — los recuerdos accedidos frecuentemente se potencian, los obsoletos decaen
Escrituras atómicas con tempfile + os.replace para protección contra fallos
Eliminación FAISS basada en tumbas — O(1) en lugar de reconstruir todo el índice
Degradación elegante — si LM Studio falla, el almacenamiento sigue funcionando, la consolidación se pausa
88 pruebas aprobadas

Herramientas MCP

memory_store — guardar un episodio con tipo, etiquetas, puntuación de sorpresa
memory_recall — búsqueda semántica entre episodios + conocimiento consolidado
memory_forget — marcar un episodio para eliminación
memory_correct — actualizar un documento de conocimiento
memory_export — copia de seguridad JSON completa
memory_status — verificación de estado

Por qué se eligió MCP

Los modelos se reemplazan frecuentemente, pero el conocimiento acumulado no debería desaparecer con ellos. MCP hace que la memoria sea portátil — un almacén, muchas interfaces. La capa de memoria se vuelve más valiosa que cualquier modelo individual.

Resultados prácticos

Después de aproximadamente una semana de uso, el sistema construyó documentos de conocimiento sobre hardware de PC, configuración de VR, preferencias de codificación y arquitecturas de proyectos — todo sintetizado a partir de conversaciones normales. Al iniciar nuevos chats, la IA ya conoce el contexto del usuario sin necesidad de reexplicar.

Requisitos

Python 3.11+
LM Studio con Qwen 2.5-7B y nomic-embed-text-v1.5 cargados
Cualquier cliente MCP

📖 Read the full source: r/LocalLLaMA

Sistema de Memoria MCP Local con Consolidación para Conversaciones de IA

Qué es esto

Cómo funciona

Stack técnico

Características

Herramientas MCP

Por qué se eligió MCP

Resultados prácticos

Requisitos

👀 Ver también

OpenBridge: Control Remoto Gratuito y de Código Abierto para Claude Code a través de Slack/Discord

CodeLedger: Complemento de código de código abierto de Claude que rastrea el uso de tokens y agentes en segundo plano.

Sistema de Cerebro Secundario de Código Abierto Construido en Claude Code para la Gestión de Tareas

Configuración de OpenClaw en Máquina Virtual Ubuntu UTM con Acceso a API LLM y Ollama