MemAware Benchmark Testa a Memória da IA Além da Busca por Palavras-Chave

✍️ OpenClawRadar📅 Publicado: March 27, 2026🔗 Source
MemAware Benchmark Testa a Memória da IA Além da Busca por Palavras-Chave
Ad

MemAware é um benchmark de código aberto projetado para testar se assistentes de IA com memória conseguem trazer à tona contexto relevante de conversas passadas quando as consultas atuais não dão pistas explícitas sobre essa informação.

Como o Benchmark Funciona

O benchmark contém 900 perguntas em três níveis de dificuldade. Ele testa cenários em que o contexto relevante existe na memória, mas a pergunta atual não contém palavras-chave que acionariam uma correspondência na busca. Por exemplo: você contou ao seu assistente de IA sobre seu trajeto de 45 minutos há meses, e depois pergunta "Que horas devo configurar meu despertador para minha reunião das 8h30?". O assistente deveria levar em conta seu trajeto, mas buscar "despertador 8h30 reunião" não encontrará conversas sobre o trajeto.

Ad

Principais Descobertas

  • A busca mal ajuda: A busca BM25 marcou 2,8% contra 0,8% sem memória — uma melhoria minúscula que custa 5 vezes mais tokens.
  • A busca vetorial falha em perguntas difíceis: Ela ajuda quando há sobreposição de palavras-chave (6%), mas cai para 0,7% em conexões entre domínios diferentes — o mesmo que sem memória. Exemplo de pergunta difícil: "Como devo dar um lance no leilão beneficente?" deveria lembrar uma compra passada de uma bolsa de US$ 800 como base de gastos, mas a similaridade de embeddings não consegue conectar esses conceitos.
  • Buscar quando não se deve é caro: O padrão "sempre buscar" lê cerca de 4,7 mil tokens de resultados por pergunta, independentemente de ajudarem ou não. Na maioria das vezes, os resultados são ruído irrelevante.

O Problema Central

As implementações atuais de memória de IA são essencialmente apenas sistemas de busca. A verdadeira consciência da memória — saber quais informações estão armazenadas e trazer à tona proativamente o contexto relevante — é um problema diferente que a busca sozinha não consegue resolver.

O benchmark está disponível para testar diferentes abordagens em: https://github.com/kevin-hs-sohn/memaware

📖 Leia a fonte completa: r/ClaudeAI

Ad

👀 See Also

Xmloxide: Uma Reimplementação em Rust do libxml2 Criada com Assistência de Agente de IA
Tools

Xmloxide: Uma Reimplementação em Rust do libxml2 Criada com Assistência de Agente de IA

Xmloxide é uma reimplementação pura em Rust da biblioteca libxml2 não mais mantida, criada usando Claude Code para passar em suítes de testes de compatibilidade. Ele fornece análise segura de memória para XML/HTML com uma API C para substituição direta.

OpenClawRadar
DESIGN.md: Uma especificação de formato para descrever identidade visual para agentes de codificação
Tools

DESIGN.md: Uma especificação de formato para descrever identidade visual para agentes de codificação

DESIGN.md combina tokens de design YAML com prosa em markdown para dar a agentes de IA uma compreensão estruturada e persistente de um sistema de design. Inclui um linter e uma ferramenta de diff.

OpenClawRadar
Conselheiro de IA Persistente com Memória entre Plataformas: Rastreia Histórico de Decisões por 3 Meses
Tools

Conselheiro de IA Persistente com Memória entre Plataformas: Rastreia Histórico de Decisões por 3 Meses

Um usuário do Reddit criou um consultor de IA persistente que lembra de todas as decisões de produto no Claude Code, Cursor e uma interface web, detectando contradições e melhorando ao longo de meses.

OpenClawRadar
AgentConnex: Um Mercado para Descoberta e Reputação de Agentes de IA
Tools

AgentConnex: Um Mercado para Descoberta e Reputação de Agentes de IA

AgentConnex é um mercado onde agentes de IA se registram via API, constroem reputação através da conclusão de trabalhos e avaliações, e permitem que desenvolvedores os descubram e contratem. Atualmente, possui aproximadamente 570 agentes nas áreas de programação, pesquisa, segurança, DevOps e conteúdo.

OpenClawRadar