Servidor MCP Local com Consolidação de Memória para IA

O Que É Isso

Um desenvolvedor criou um sistema de memória local para conversas de IA que consolida e sintetiza informações em vez de apenas armazená-las. Construído como um servidor MCP, ele funciona com clientes compatíveis como Claude Desktop e Claude Code, rodando 100% localmente sem que nenhum dado saia do seu hardware.

Como Funciona

O diferencial principal em relação aos sistemas RAG padrão é o processo de consolidação. A cada 6 horas, um LLM local (Qwen 2.5-7B rodando no LM Studio) agrupa memórias recentes por tópico e as consolida em documentos de conhecimento estruturados. Ele extrai fatos, soluções e preferências, mesclando-os com o conhecimento existente e versionando tudo.

Stack Técnica

Embeddings: nomic-embed-text-v1.5 via LM Studio
Busca vetorial: FAISS (híbrida semântica + por palavra-chave)
LLM de consolidação: Qwen 2.5-7B (Q4) via LM Studio
Armazenamento: SQLite para episódios, FAISS para vetores
Protocolo: MCP — funciona com qualquer coisa que o suporte
Configuração: TOML

Funcionalidades

Deduplicação semântica com limite de similaridade de cosseno de 0,95
Pontuação adaptativa de surpresa — memórias acessadas com frequência são impulsionadas, as desatualizadas decaem
Escritas atômicas com tempfile + os.replace para proteção contra falhas
Exclusão baseada em lápide no FAISS — O(1) em vez de reconstruir todo o índice
Degradação graciosa — se o LM Studio cair, o armazenamento ainda funciona, a consolidação pausa
88 testes passando

Ferramentas MCP

memory_store — salva um episódio com tipo, tags, pontuação de surpresa
memory_recall — busca semântica entre episódios + conhecimento consolidado
memory_forget — marca um episódio para remoção
memory_correct — atualiza um documento de conhecimento
memory_export — backup completo em JSON
memory_status — verificação de saúde

Por Que o MCP Foi Escolhido

Os modelos são substituídos com frequência, mas o conhecimento acumulado não deve desaparecer com eles. O MCP torna a memória portátil — um armazenamento, muitas interfaces. A camada de memória se torna mais valiosa do que qualquer modelo individual.

Resultados Práticos

Após cerca de uma semana de uso, o sistema construiu documentos de conhecimento sobre hardware de PC, configuração de VR, preferências de programação e arquiteturas de projetos — tudo sintetizado a partir de conversas normais. Ao iniciar novos chats, a IA já conhece o contexto do usuário sem necessidade de reexplicação.