Memória Persistente para o Claude: Stack Local com MCP, Recuperação de 39ms, Redução de 82% de Tokens

✍️ OpenClawRadar📅 Publicado: May 8, 2026🔗 Source
Memória Persistente para o Claude: Stack Local com MCP, Recuperação de 39ms, Redução de 82% de Tokens
Ad

Um usuário do Reddit construiu uma camada de memória persistente local para Claude que resolve o problema de contexto zero entre sessões. A pilha roda inteiramente local (sem nuvem, sem chaves de API) e se integra via MCP. Arquitetura chave: quatro camadas (L0 log de eventos somente anexar em SQLite, L1 fatos estruturados adiados, L2/L3 prosa wiki, L4 nós de sessão cristalizados com resumo + decisões + tópicos abertos), Qdrant Docker para busca vetorial, llama.cpp com Qwen3-Embedding-4B na GPU e Qwen3.5-2B-Q4_K_M na CPU para embedding e chat, e um servidor FastMCP expondo 7 ferramentas (retrieve, crystallize_session, list_sessions, get_l4_node, index_status, reindex, shutdown_models).

Números

  • Redução de tokens vs baseline grep+Read: 82,7% média, 86,2% mediana.
  • F1 de recuperação: 0,50 vs 0,20 baseline.
  • Cold start de embedding ~4s; p95 em caminho quente 39ms (era 2241ms antes da correção de bug).
  • Avaliação de recuperação de sessão L4: pontuação média 0,920 (limiar 0,6).
  • 738 chunks indexados em 104 arquivos markdown.
Ad

Principal Aprendizado: Reutilização de Conexão no Windows

A recuperação em caminho quente estava travada em 2241ms p95 mesmo com embedding residente na GPU em uma 4070 Ti Super. A causa: cada httpx.post() abria uma nova conexão TCP, e os handshakes de localhost no Windows levavam cerca de 2 segundos. Mudar para um httpx.Client persistente com keep-alive reduziu o p95 para 39ms — uma aceleração de 57×.

Outras Surpresas

  • Modo de pensamento Qwen3: Se enable_thinking não for desabilitado via chat_template_kwargs: {enable_thinking: false} com --jinja no llama-server, o modelo gasta todo o orçamento de tokens em blocos de pensamento e produz conteúdo vazio.
  • Registro MCP: O modo agêntico do Claude Desktop (Cowork) lê um arquivo de configuração de plugin, não ~/.claude.json. O serviço LKS deve ser empacotado como um pacote .plugin Cowork adequado.

Para Quem É

Desenvolvedores que usam Claude intensamente e desejam uma camada de memória local, privada e econômica que mantenha contexto entre sessões sem dependências de nuvem.

📖 Leia a fonte completa: r/ClaudeAI

Ad

👀 See Also

ClaudeHive: Interface Web para Gerenciar Sessões Paralelas de Código Claude
Tools

ClaudeHive: Interface Web para Gerenciar Sessões Paralelas de Código Claude

ClaudeHive é uma interface web que gerencia sessões paralelas do Claude Code, permitindo aos usuários definir modelos de prompt com espaços reservados, executá-los em lote em várias entradas com concorrência configurável e revisar todos os resultados em um só lugar. Inclui uma ferramenta CLI para agentes gerenciadores criarem e coordenarem agentes trabalhadores.

OpenClawRadar
Cowork vs. Claude Chat: Comparação de Precisão na Extração de Documentos
Tools

Cowork vs. Claude Chat: Comparação de Precisão na Extração de Documentos

Um desenvolvedor testou o chat Claude.ai e o Cowork na extração de dados de PDFs financeiros com mais de 140 páginas usando prompts idênticos. O chat produziu resultados de nível institucional com autocorreção e zero erros em mais de 150 pontos de dados, enquanto o Cowork fabricou itens de linha de reconciliação, inverteu contagens de unidades e teve contaminação de colunas de anos anteriores.

OpenClawRadar
Camada de Identidade e Reputação para Agentes OpenClaw
Tools

Camada de Identidade e Reputação para Agentes OpenClaw

Uma equipe de desenvolvedores criou o MCP-I e o IdentiClaw para resolver a perda de identidade em fluxos de trabalho de agentes com múltiplas etapas, além do knowthat.ai como um registro de reputação. Eles doaram a especificação do MCP-I para a Decentralized Identity Foundation.

OpenClawRadar
Habilidade OpenClaw Conecta Agentes à Interface do Knods.io para Criação de Fluxos de Trabalho
Tools

Habilidade OpenClaw Conecta Agentes à Interface do Knods.io para Criação de Fluxos de Trabalho

Um desenvolvedor criou uma habilidade OpenClaw que permite que agentes compreendam e criem fluxos de trabalho dentro da interface do Knods.io, permitindo que os usuários alternem entre agentes específicos, como os específicos de marca, em vez de depender do agente integrado do Knods.

OpenClawRadar