Sistema de Memória Automática de Código Aberto para Agentes LLM Alcança 94% de Precisão de Recuperação

Um desenvolvedor disponibilizou em código aberto um sistema de memória automática para agentes baseados em LLM que extrai, classifica e persiste fatos automaticamente entre sessões sem exigir comandos explícitos de "salvar isso". Todo o projeto—incluindo código do plugin, design do benchmark e estrutura de testes—foi construído usando Claude Code como a principal ferramenta de desenvolvimento.
Como o Sistema de Memória Funciona
O sistema opera com duas camadas:
- Camada 1 (por turno): Um LLM leve resume cada turno em tempo real e grava em um arquivo de preparação
- Camada 2 (limite da sessão): Classificação assíncrona em quatro arquivos de habilidades: identidade, conhecimento, lições e preferências
A recuperação funciona fazendo com que o agente carregue arquivos de habilidades relevantes com base na correspondência de palavras-chave nas descrições. A abordagem usa arquivos markdown estruturados que o agente lê como "habilidades" em vez de bancos de dados vetoriais ou pipelines RAG.
Desenvolvimento com Claude Code
Claude Code auxiliou em múltiplos aspectos do projeto:
- Design de arquitetura: Ajudou a avaliar LongMemEval como candidato a benchmark, identificou a incompatibilidade de paradigma (recuperação de contexto longo vs. memória progressiva) e propôs um benchmark adaptado com 6 tipos de perguntas
- Criação do benchmark: Projetou o conjunto completo de testes com 20 sessões/48 fatos incluindo tabela de plantio de fatos, cadeias de atualização (A→B→C), pares de interferência, perguntas de abstenção e colocação de gatilhos de dois saltos
- Estrutura de testes: Construiu toda a estrutura de autoteste incluindo executor serial, sondagem multi-turno, gerenciamento de ciclo de vida, avaliador de regras e pipeline de juiz LLM
- Depuração em loop: Diagnosticou problemas ao vivo durante execuções de teste, como um popup de atualização bloqueando reinicializações do Agente, que foi corrigido travando o arquivo de estado do atualizador como somente leitura
Resultados do Benchmark
O benchmark de 20 sessões foi inspirado no LongMemEval e testou 48 fatos plantados em 6 tipos de perguntas:
- Recuperação profunda: Fatos das sessões 1-2 testados 15+ sessões depois - 89%
- Atualização de conhecimento: Cadeia de correção de 3 níveis (A→B→C) - 100%
- Raciocínio entre sessões: Combinar fatos de 3+ sessões - 100%
- Resistência à interferência: Nomes similares que não devem ser confundidos - 100%
- Raciocínio temporal: Perguntas de ordenação "Qual veio primeiro?" - 80%
- Abstenção: "Não sei" para fatos nunca mencionados - 86%
Geral: 49/52 pontos de verificação passados (94,2%). A única falha grave ocorreu quando o agente inferiu "você fez marketing em mídias sociais" de um fato vagamente relacionado ("trabalho de promoção") quando a resposta correta era "nunca discutido"—um problema clássico de superinferência de LLM.
Disponibilidade e Perguntas
O projeto é de código aberto com código e benchmark disponíveis no GitHub. O desenvolvedor está buscando feedback sobre a abordagem de arquivos de habilidades (markdown estruturado vs. busca vetorial), melhores formas de testar abstenção (identificada como a dimensão mais difícil) e informações sobre outros que estão avaliando memória entre sessões em agentes (não apenas contexto longo).
📖 Leia a fonte completa: r/ClaudeAI
👀 See Also

Pipeline de Código Claude Automatizado Reduz Uso de Tokens de 78k para 15k por Funcionalidade
Um pipeline de código aberto para Claude Code automatiza 12 fases, incluindo análise prévia do código existente, reduzindo o uso de tokens de ~78k para ~15k por funcionalidade. Oferece três perfis (yolo, padrão, paranóico) e substitui pontuações de confiança por validação baseada em grep.

Bernstein: Um orquestrador semelhante ao Kubernetes para agentes de codificação de IA com verificação e políticas de modelo
Bernstein é um orquestrador para agentes de codificação de IA que inclui verificação independente das saídas dos agentes, controles de política de modelo, 13 adaptadores de agentes e agendamento determinístico baseado em Python. O projeto possui mais de 5000 testes e recursos como disjuntores, detecção de anomalias de custo e varredura de PII.

Desenvolvimento em Lisp com Agentes de IA: Custos Elevados e Desafios Técnicos
Um engenheiro de DevOps descobriu que agentes de IA têm dificuldades com desenvolvimento em Lisp, custando $10-$20 em minutos para código abaixo do padrão, enquanto Python e Go funcionam com eficiência. Ele criou tmux-repl-mcp para melhorar a interação com o REPL, mas ainda enfrentou altos custos de tokens e problemas com ferramentas.

LetMeWatch: Plugin Python Adiciona Análise de Vídeo ao Claude via Detecção de Cenas do FFmpeg
Um desenvolvedor criou um plugin Python de aproximadamente 200 linhas chamado LetMeWatch que permite ao Claude analisar vídeos usando FFmpeg para detecção de cenas, extraindo apenas os quadros onde as imagens mudam, adicionando timestamps e alimentando lotes para a visão multimodal do Claude.