Sistema de Memória MCP Local com Consolidação para Conversas de IA

O Que É Isso
Um desenvolvedor criou um sistema de memória local para conversas de IA que consolida e sintetiza informações em vez de apenas armazená-las. Construído como um servidor MCP, ele funciona com clientes compatíveis como Claude Desktop e Claude Code, rodando 100% localmente sem que nenhum dado saia do seu hardware.
Como Funciona
O diferencial principal em relação aos sistemas RAG padrão é o processo de consolidação. A cada 6 horas, um LLM local (Qwen 2.5-7B rodando no LM Studio) agrupa memórias recentes por tópico e as consolida em documentos de conhecimento estruturados. Ele extrai fatos, soluções e preferências, mesclando-os com o conhecimento existente e versionando tudo.
Stack Técnica
- Embeddings: nomic-embed-text-v1.5 via LM Studio
- Busca vetorial: FAISS (híbrida semântica + por palavra-chave)
- LLM de consolidação: Qwen 2.5-7B (Q4) via LM Studio
- Armazenamento: SQLite para episódios, FAISS para vetores
- Protocolo: MCP — funciona com qualquer coisa que o suporte
- Configuração: TOML
Funcionalidades
- Deduplicação semântica com limite de similaridade de cosseno de 0,95
- Pontuação adaptativa de surpresa — memórias acessadas com frequência são impulsionadas, as desatualizadas decaem
- Escritas atômicas com tempfile + os.replace para proteção contra falhas
- Exclusão baseada em lápide no FAISS — O(1) em vez de reconstruir todo o índice
- Degradação graciosa — se o LM Studio cair, o armazenamento ainda funciona, a consolidação pausa
- 88 testes passando
Ferramentas MCP
memory_store— salva um episódio com tipo, tags, pontuação de surpresamemory_recall— busca semântica entre episódios + conhecimento consolidadomemory_forget— marca um episódio para remoçãomemory_correct— atualiza um documento de conhecimentomemory_export— backup completo em JSONmemory_status— verificação de saúde
Por Que o MCP Foi Escolhido
Os modelos são substituídos com frequência, mas o conhecimento acumulado não deve desaparecer com eles. O MCP torna a memória portátil — um armazenamento, muitas interfaces. A camada de memória se torna mais valiosa do que qualquer modelo individual.
Resultados Práticos
Após cerca de uma semana de uso, o sistema construiu documentos de conhecimento sobre hardware de PC, configuração de VR, preferências de programação e arquiteturas de projetos — tudo sintetizado a partir de conversas normais. Ao iniciar novos chats, a IA já conhece o contexto do usuário sem necessidade de reexplicação.
Requisitos
- Python 3.11+
- LM Studio com Qwen 2.5-7B e nomic-embed-text-v1.5 carregados
- Qualquer cliente MCP
📖 Leia o código-fonte completo: r/LocalLLaMA
👀 See Also

O Plugin Keyoku Substitui o Batimento Cardíaco Estático do OpenClaw por Autonomia Baseada em Memória
Keyoku é um plugin gratuito do OpenClaw que altera o batimento cardíaco do agente, passando da leitura de um arquivo estático HEARTBEAT.md para a verificação do armazenamento de memória real do agente em busca de trabalho parado, compromissos abandonados, informações conflitantes e relacionamentos inativos. Ele utiliza um mecanismo Go local com SQLite + HNSW e oferece três níveis de autonomia: observar, sugerir e agir.

O plano de codificação mensal de US$ 10 da Alibaba oferece acesso de alto volume a múltiplos modelos de IA para usuários do OpenClaw.
Por US$ 10 por mês, o plano da Alibaba oferece acesso aos modelos Qwen3.5-Plus, Kimi-K2.5, GLM-5 e MiniMax-M2.5 com cotas de 1.200 solicitações a cada 5 horas, 9.000 por semana e 18.000 por mês.

Configuração do OpenClaw no Ubuntu UTM VM com Acesso à API LLM e Ollama
Um usuário configurou com sucesso o OpenClaw em uma VM Ubuntu sandboxed em um Mac M3, com acesso tanto ao Ollama local no macOS quanto a APIs externas de LLM como Gemini, Claude e DeepSeek. Arquivos de configuração de exemplo e notas de solução de problemas estão disponíveis no GitHub.

Forge: Transforme um Mac ou Linux em um Host de Desenvolvimento Sempre Ativo para Agentes de IA de Programação
Forge é uma ferramenta de código aberto que instala um daemon para transformar qualquer máquina Mac ou Linux em um host de desenvolvimento permanente e sempre ativo. Mantém os agentes de IA de codificação em execução quando você se afasta, fornece um painel web para monitoramento e usa Tailscale para acesso remoto seguro via SSH.