Benchmark MemAware: Memória RAG Falha com 2,8% de Precisão

O benchmark MemAware aborda uma lacuna nos testes de memória de agentes existentes, avaliando se os agentes de IA conseguem recuperar contextos passados relevantes quando os usuários não os solicitam explicitamente. A maioria dos sistemas de memória de agentes atuais segue um padrão direto: o usuário pergunta algo → o agente busca na memória → recupera os resultados → responde. Isso funciona bem para consultas explícitas como "qual foi a decisão sobre o banco de dados?", mas falha quando o contexto é implícito.

O que o MemAware Testa

O benchmark inclui 900 perguntas em três níveis de dificuldade que testam a recuperação de contexto implícito:

Fácil: Perguntas com sobreposição de palavras-chave (por exemplo, "A que horas devo configurar meu alarme para a reunião das 8h30?" deve lembrar um deslocamento de 45 minutos)
Médio: Perguntas dentro do mesmo domínio
Difícil: Perguntas entre domínios sem conexões por palavras-chave (por exemplo, "O Ford Mustang precisa de filtro de ar, onde posso usar meus descontos de fidelidade?" deve lembrar que o usuário faz compras na Target)

Resultados do Benchmark

Testes com busca vetorial + BM25 local revelaram limitações significativas:

Nível fácil: 6,0% de precisão
Nível médio: 3,7% de precisão
Nível difícil: 0,7% de precisão — essencialmente o mesmo que não ter memória alguma (0,8%)

O nível difícil representa problemas não resolvidos em que as consultas de busca não conectam conceitos entre domínios. O autor do benchmark sugere que soluções eficazes podem exigir "algum tipo de visão geral pré-carregada do histórico completo do usuário, em vez de recuperação por consulta".

Implicações Práticas

Isso destaca uma limitação fundamental nos sistemas de memória de agentes baseados em RAG atuais. Quando os usuários não usam as palavras-chave certas ou quando as conexões abrangem domínios diferentes, as abordagens de busca padrão falham em recuperar o contexto relevante. O conjunto de dados e a estrutura de teste são de código aberto sob licença MIT, permitindo que os desenvolvedores testem seus próprios sistemas de memória.

📖 Read the full source: r/LocalLLaMA

O benchmark MemAware mostra que a memória do agente baseado em RAG falha na recuperação de contexto implícito.

O que o MemAware Testa

Resultados do Benchmark

Implicações Práticas

👀 See Also

Os usuários do OpenClaw relatam gargalos de planejamento e revisão com agentes de IA.

Costas: Hosts Containerizados para Executar Múltiplos Ambientes Localhost

AIBrain adiciona memória persistente e autoaperfeiçoamento ao Claude Code

Bibliotecário de Livros: Acompanhe Sua Leitura, Receba Recomendações Sem Spoilers