Memória Automática para LLM: 94% de Precisão em Recuperação

Um desenvolvedor disponibilizou em código aberto um sistema de memória automática para agentes baseados em LLM que extrai, classifica e persiste fatos automaticamente entre sessões sem exigir comandos explícitos de "salvar isso". Todo o projeto—incluindo código do plugin, design do benchmark e estrutura de testes—foi construído usando Claude Code como a principal ferramenta de desenvolvimento.

Como o Sistema de Memória Funciona

O sistema opera com duas camadas:

Camada 1 (por turno): Um LLM leve resume cada turno em tempo real e grava em um arquivo de preparação
Camada 2 (limite da sessão): Classificação assíncrona em quatro arquivos de habilidades: identidade, conhecimento, lições e preferências

A recuperação funciona fazendo com que o agente carregue arquivos de habilidades relevantes com base na correspondência de palavras-chave nas descrições. A abordagem usa arquivos markdown estruturados que o agente lê como "habilidades" em vez de bancos de dados vetoriais ou pipelines RAG.

Desenvolvimento com Claude Code

Claude Code auxiliou em múltiplos aspectos do projeto:

Design de arquitetura: Ajudou a avaliar LongMemEval como candidato a benchmark, identificou a incompatibilidade de paradigma (recuperação de contexto longo vs. memória progressiva) e propôs um benchmark adaptado com 6 tipos de perguntas
Criação do benchmark: Projetou o conjunto completo de testes com 20 sessões/48 fatos incluindo tabela de plantio de fatos, cadeias de atualização (A→B→C), pares de interferência, perguntas de abstenção e colocação de gatilhos de dois saltos
Estrutura de testes: Construiu toda a estrutura de autoteste incluindo executor serial, sondagem multi-turno, gerenciamento de ciclo de vida, avaliador de regras e pipeline de juiz LLM
Depuração em loop: Diagnosticou problemas ao vivo durante execuções de teste, como um popup de atualização bloqueando reinicializações do Agente, que foi corrigido travando o arquivo de estado do atualizador como somente leitura

Resultados do Benchmark

O benchmark de 20 sessões foi inspirado no LongMemEval e testou 48 fatos plantados em 6 tipos de perguntas:

Recuperação profunda: Fatos das sessões 1-2 testados 15+ sessões depois - 89%
Atualização de conhecimento: Cadeia de correção de 3 níveis (A→B→C) - 100%
Raciocínio entre sessões: Combinar fatos de 3+ sessões - 100%
Resistência à interferência: Nomes similares que não devem ser confundidos - 100%
Raciocínio temporal: Perguntas de ordenação "Qual veio primeiro?" - 80%
Abstenção: "Não sei" para fatos nunca mencionados - 86%

Geral: 49/52 pontos de verificação passados (94,2%). A única falha grave ocorreu quando o agente inferiu "você fez marketing em mídias sociais" de um fato vagamente relacionado ("trabalho de promoção") quando a resposta correta era "nunca discutido"—um problema clássico de superinferência de LLM.

Disponibilidade e Perguntas

O projeto é de código aberto com código e benchmark disponíveis no GitHub. O desenvolvedor está buscando feedback sobre a abordagem de arquivos de habilidades (markdown estruturado vs. busca vetorial), melhores formas de testar abstenção (identificada como a dimensão mais difícil) e informações sobre outros que estão avaliando memória entre sessões em agentes (não apenas contexto longo).

📖 Leia a fonte completa: r/ClaudeAI