MemAware Benchmark Prueba la Memoria de la IA Más Allá de la Búsqueda por Palabras Clave

MemAware es un punto de referencia de código abierto diseñado para evaluar si los asistentes de IA con memoria pueden recuperar contexto relevante de conversaciones pasadas cuando las consultas actuales no sugieren explícitamente esa información.
Cómo funciona el punto de referencia
El punto de referencia contiene 900 preguntas en tres niveles de dificultad. Evalúa escenarios en los que existe contexto relevante en la memoria, pero la pregunta actual no contiene palabras clave que desencadenarían una coincidencia en la búsqueda. Por ejemplo: le contaste a tu asistente de IA sobre tu viaje de 45 minutos al trabajo hace meses, y luego preguntas "¿A qué hora debo poner mi alarma para mi reunión de las 8:30 AM?" El asistente debería tener en cuenta tu viaje, pero buscar "alarma 8:30 reunión" no encontrará conversaciones sobre el viaje.
Hallazgos clave
- La búsqueda apenas ayuda: La búsqueda BM25 obtuvo un 2,8 % frente al 0,8 % sin memoria, una mejora mínima que cuesta 5 veces más tokens.
- La búsqueda vectorial falla en preguntas difíciles: Ayuda cuando hay superposición de palabras clave (6 %), pero cae al 0,7 % en conexiones entre dominios, igual que sin memoria. Ejemplo de pregunta difícil: "¿Cómo debo pujar en la subasta benéfica?" debería recordar una compra pasada de un bolso de 800 dólares como referencia de gasto, pero la similitud de incrustaciones no puede conectar estos conceptos.
- Buscar cuando no se debe es costoso: El patrón de "buscar siempre" lee aproximadamente 4,7K tokens de resultados por pregunta, independientemente de si ayudan. La mayoría de las veces, los resultados son ruido irrelevante.
El problema central
Las implementaciones actuales de memoria en IA son esencialmente solo sistemas de búsqueda. La verdadera conciencia de la memoria, saber qué información está almacenada y recuperar proactivamente contexto relevante, es un problema diferente que la búsqueda por sí sola no puede resolver.
El punto de referencia está disponible para probar diferentes enfoques en: https://github.com/kevin-hs-sohn/memaware
📖 Read the full source: r/ClaudeAI
👀 Ver también

Smriti: Un sistema similar a Git para gestionar el estado del razonamiento de LLM y prevenir la deriva en las conversaciones.
Smriti es una herramienta de código abierto que permite a los desarrolladores guardar, restaurar, ramificar y comparar estados de razonamiento en conversaciones con LLM para prevenir la deriva. Trata las interacciones como estado en lugar de historial de chat, permitiendo retrocesos limpios y exploración alternativa sin contaminación.

El servidor TOON MCP reduce los tokens de resultados de herramientas en un 30-60% en OpenClaw.
Un servidor MCP que comprime resultados estructurados de herramientas JSON en formato TOON puede reducir el uso de tokens entre un 30-60% para datos tabulares como consultas de bases de datos y respuestas de API, ayudando a retrasar la compactación de la ventana de contexto en sesiones de OpenClaw.

X-MCP 2.0: Servidor MCP para Acceso a la API de X/Twitter desde Claude
X-MCP 2.0 es un servidor MCP que conecta Claude Desktop y Claude Code con la API v2 de X/Twitter mediante autenticación OAuth 2.0 PKCE, proporcionando 10 herramientas para publicar tweets, buscar, obtener cronologías, dar me gusta, retwittear, responder y ver perfiles.

OmniRecall Beta: Inyección de Memoria con Tecnología FAISS para Chats de LLM en la Nube
OmniRecall es una herramienta local de bypass para mitmproxy que intercepta el tráfico hacia interfaces de chat en la nube como DeepSeek, añadiendo una capa de memoria permanente mediante indexación FAISS y sentence-transformers MiniLM-L6. Actualmente está en fase beta, requiere operación solo con CPU y utiliza una licencia de código disponible con restricciones agresivas.