Les tests de référence MemAware évaluent la mémoire de l'IA au-delà de la simple recherche par mots-clés.

MemAware est un benchmark open-source conçu pour tester si les assistants IA dotés de mémoire peuvent faire remonter un contexte pertinent à partir de conversations passées lorsque les requêtes actuelles ne font pas explicitement référence à ces informations.
Fonctionnement du Benchmark
Le benchmark contient 900 questions réparties sur trois niveaux de difficulté. Il teste des scénarios où un contexte pertinent existe en mémoire, mais la question actuelle ne contient pas les mots-clés qui déclencheraient une correspondance de recherche. Par exemple : vous avez informé votre assistant IA de vos 45 minutes de trajet il y a des mois, puis plus tard vous demandez « À quelle heure dois-je régler mon réveil pour ma réunion à 8h30 ? » L'assistant devrait prendre en compte votre trajet, mais rechercher « réveil 8h30 réunion » ne trouvera pas les conversations sur le trajet.
Principales Constatations
- La recherche aide à peine : La recherche BM25 a obtenu 2,8 % contre 0,8 % sans mémoire — une amélioration minime qui coûte 5 fois plus de tokens.
- La recherche vectorielle échoue sur les questions difficiles : Elle aide lorsque les mots-clés se chevauchent (6 %) mais chute à 0,7 % sur les connexions inter-domaines — le même résultat que sans mémoire. Exemple de question difficile : « Combien devrais-je enchérir à la vente aux enchères caritative ? » devrait rappeler un achat passé d'un sac à main à 800 $ comme base de dépenses, mais la similarité d'embedding ne peut pas relier ces concepts.
- Rechercher quand on ne devrait pas est coûteux : Le modèle « toujours rechercher » lit environ 4,7K tokens de résultats par question, qu'ils aident ou non. La plupart du temps, les résultats sont du bruit non pertinent.
Le Problème Central
Les implémentations actuelles de la mémoire IA sont essentiellement des systèmes de recherche. La véritable conscience de la mémoire — savoir quelles informations sont stockées et faire remonter proactivement un contexte pertinent — est un problème différent que la recherche seule ne peut résoudre.
Le benchmark est disponible pour tester différentes approches à l'adresse : https://github.com/kevin-hs-sohn/memaware
📖 Read the full source: r/ClaudeAI
👀 See Also

dead-letter : Convertisseur local .eml vers .md avec CLI, interface web et serveur MCP
dead-letter normalise les exports d'e-mails en Markdown avec en-tête YAML, personnalisable. Il offre quatre modes d'accès : CLI, bibliothèque Python, interface Web et serveur MCP pour une intégration directe avec Claude Desktop, Claude Code et Codex.

Deux outils MCP pour Claude Code : Validation d'idée et Mémoire d'agent de trading
Un développeur a créé deux outils MCP pour Claude Code : idea-reality-mcp vérifie GitHub et Hacker News avant de coder pour éviter les doublons, tandis que tradememory-protocol fournit une mémoire aux agents d'IA de trading pour stocker les transactions avec contexte et suivre la performance des stratégies. Les deux sont open source et disponibles sur PyPI.

IUM : L'Indexeur de Symboles MCP Réduit l'Utilisation de Jetons des Agents IA de 15,9x par rapport à grep
IUM indexe les bases de code dans une matrice SQLite d'événements de symboles, exposant les coordonnées exactes fichier:ligne, le traçage de graphe d'appels et la recherche sémantique via MCP. Testé avec DataFusion (1 538 fichiers), montrant 15,9 fois moins de tokens que grep pour des requêtes équivalentes.

Le plugin cc-soul ajoute une mémoire persistante et des personnalités adaptatives à OpenClaw.
Le plugin cc-soul pour OpenClaw offre un stockage de mémoire permanent entre les sessions, 10 personnalités à commutation automatique et un apprentissage à partir des corrections. L'installation nécessite une seule commande sans configuration.