Memória Persistente para Claude: 39ms de Recuperação, 82% Menos Tokens

Um usuário do Reddit construiu uma camada de memória persistente local para Claude que resolve o problema de contexto zero entre sessões. A pilha roda inteiramente local (sem nuvem, sem chaves de API) e se integra via MCP. Arquitetura chave: quatro camadas (L0 log de eventos somente anexar em SQLite, L1 fatos estruturados adiados, L2/L3 prosa wiki, L4 nós de sessão cristalizados com resumo + decisões + tópicos abertos), Qdrant Docker para busca vetorial, llama.cpp com Qwen3-Embedding-4B na GPU e Qwen3.5-2B-Q4_K_M na CPU para embedding e chat, e um servidor FastMCP expondo 7 ferramentas (retrieve, crystallize_session, list_sessions, get_l4_node, index_status, reindex, shutdown_models).

Números

Redução de tokens vs baseline grep+Read: 82,7% média, 86,2% mediana.
F1 de recuperação: 0,50 vs 0,20 baseline.
Cold start de embedding ~4s; p95 em caminho quente 39ms (era 2241ms antes da correção de bug).
Avaliação de recuperação de sessão L4: pontuação média 0,920 (limiar 0,6).
738 chunks indexados em 104 arquivos markdown.

Principal Aprendizado: Reutilização de Conexão no Windows

A recuperação em caminho quente estava travada em 2241ms p95 mesmo com embedding residente na GPU em uma 4070 Ti Super. A causa: cada httpx.post() abria uma nova conexão TCP, e os handshakes de localhost no Windows levavam cerca de 2 segundos. Mudar para um httpx.Client persistente com keep-alive reduziu o p95 para 39ms — uma aceleração de 57×.

Outras Surpresas

Modo de pensamento Qwen3: Se enable_thinking não for desabilitado via chat_template_kwargs: {enable_thinking: false} com --jinja no llama-server, o modelo gasta todo o orçamento de tokens em blocos de pensamento e produz conteúdo vazio.
Registro MCP: O modo agêntico do Claude Desktop (Cowork) lê um arquivo de configuração de plugin, não ~/.claude.json. O serviço LKS deve ser empacotado como um pacote .plugin Cowork adequado.

Para Quem É

Desenvolvedores que usam Claude intensamente e desejam uma camada de memória local, privada e econômica que mantenha contexto entre sessões sem dependências de nuvem.

📖 Leia a fonte completa: r/ClaudeAI