MemAware Benchmark: 900 Preguntas para Probar Memoria IA

MemAware es un punto de referencia de código abierto diseñado para evaluar si los asistentes de IA con memoria pueden recuperar contexto relevante de conversaciones pasadas cuando las consultas actuales no sugieren explícitamente esa información.

Cómo funciona el punto de referencia

El punto de referencia contiene 900 preguntas en tres niveles de dificultad. Evalúa escenarios en los que existe contexto relevante en la memoria, pero la pregunta actual no contiene palabras clave que desencadenarían una coincidencia en la búsqueda. Por ejemplo: le contaste a tu asistente de IA sobre tu viaje de 45 minutos al trabajo hace meses, y luego preguntas "¿A qué hora debo poner mi alarma para mi reunión de las 8:30 AM?" El asistente debería tener en cuenta tu viaje, pero buscar "alarma 8:30 reunión" no encontrará conversaciones sobre el viaje.

Hallazgos clave

La búsqueda apenas ayuda: La búsqueda BM25 obtuvo un 2,8 % frente al 0,8 % sin memoria, una mejora mínima que cuesta 5 veces más tokens.
La búsqueda vectorial falla en preguntas difíciles: Ayuda cuando hay superposición de palabras clave (6 %), pero cae al 0,7 % en conexiones entre dominios, igual que sin memoria. Ejemplo de pregunta difícil: "¿Cómo debo pujar en la subasta benéfica?" debería recordar una compra pasada de un bolso de 800 dólares como referencia de gasto, pero la similitud de incrustaciones no puede conectar estos conceptos.
Buscar cuando no se debe es costoso: El patrón de "buscar siempre" lee aproximadamente 4,7K tokens de resultados por pregunta, independientemente de si ayudan. La mayoría de las veces, los resultados son ruido irrelevante.

El problema central

Las implementaciones actuales de memoria en IA son esencialmente solo sistemas de búsqueda. La verdadera conciencia de la memoria, saber qué información está almacenada y recuperar proactivamente contexto relevante, es un problema diferente que la búsqueda por sí sola no puede resolver.

El punto de referencia está disponible para probar diferentes enfoques en: https://github.com/kevin-hs-sohn/memaware

📖 Read the full source: r/ClaudeAI

MemAware Benchmark Prueba la Memoria de la IA Más Allá de la Búsqueda por Palabras Clave

Cómo funciona el punto de referencia

Hallazgos clave

El problema central

👀 Ver también

ClawRelay: proxy nativo de macOS compatible con LLM de OpenAI con conmutación automática por error

Por qué los cazarrecompensas de IA están perdiendo dinero: Datos de 60 casos

Servidor MCP de Pares Conecta Sesiones de Codificación de IA para Colaboración

NotebookLM MCP Estructurado: Servidor Gratuito Conecta Claude a NotebookLM con Estructuración Automática de Prompts