Benchmark MemAware: 900 Perguntas em 3 Níveis Testam Memória de IA

MemAware é um benchmark de código aberto projetado para testar se assistentes de IA com memória conseguem trazer à tona contexto relevante de conversas passadas quando as consultas atuais não dão pistas explícitas sobre essa informação.

Como o Benchmark Funciona

O benchmark contém 900 perguntas em três níveis de dificuldade. Ele testa cenários em que o contexto relevante existe na memória, mas a pergunta atual não contém palavras-chave que acionariam uma correspondência na busca. Por exemplo: você contou ao seu assistente de IA sobre seu trajeto de 45 minutos há meses, e depois pergunta "Que horas devo configurar meu despertador para minha reunião das 8h30?". O assistente deveria levar em conta seu trajeto, mas buscar "despertador 8h30 reunião" não encontrará conversas sobre o trajeto.

Principais Descobertas

A busca mal ajuda: A busca BM25 marcou 2,8% contra 0,8% sem memória — uma melhoria minúscula que custa 5 vezes mais tokens.
A busca vetorial falha em perguntas difíceis: Ela ajuda quando há sobreposição de palavras-chave (6%), mas cai para 0,7% em conexões entre domínios diferentes — o mesmo que sem memória. Exemplo de pergunta difícil: "Como devo dar um lance no leilão beneficente?" deveria lembrar uma compra passada de uma bolsa de US$ 800 como base de gastos, mas a similaridade de embeddings não consegue conectar esses conceitos.
Buscar quando não se deve é caro: O padrão "sempre buscar" lê cerca de 4,7 mil tokens de resultados por pergunta, independentemente de ajudarem ou não. Na maioria das vezes, os resultados são ruído irrelevante.

O Problema Central

As implementações atuais de memória de IA são essencialmente apenas sistemas de busca. A verdadeira consciência da memória — saber quais informações estão armazenadas e trazer à tona proativamente o contexto relevante — é um problema diferente que a busca sozinha não consegue resolver.

O benchmark está disponível para testar diferentes abordagens em: https://github.com/kevin-hs-sohn/memaware

📖 Leia a fonte completa: r/ClaudeAI