MemAware : Benchmark Mémoire IA vs BM25

MemAware est un benchmark open-source conçu pour tester si les assistants IA dotés de mémoire peuvent faire remonter un contexte pertinent à partir de conversations passées lorsque les requêtes actuelles ne font pas explicitement référence à ces informations.

Fonctionnement du Benchmark

Le benchmark contient 900 questions réparties sur trois niveaux de difficulté. Il teste des scénarios où un contexte pertinent existe en mémoire, mais la question actuelle ne contient pas les mots-clés qui déclencheraient une correspondance de recherche. Par exemple : vous avez informé votre assistant IA de vos 45 minutes de trajet il y a des mois, puis plus tard vous demandez « À quelle heure dois-je régler mon réveil pour ma réunion à 8h30 ? » L'assistant devrait prendre en compte votre trajet, mais rechercher « réveil 8h30 réunion » ne trouvera pas les conversations sur le trajet.

Principales Constatations

La recherche aide à peine : La recherche BM25 a obtenu 2,8 % contre 0,8 % sans mémoire — une amélioration minime qui coûte 5 fois plus de tokens.
La recherche vectorielle échoue sur les questions difficiles : Elle aide lorsque les mots-clés se chevauchent (6 %) mais chute à 0,7 % sur les connexions inter-domaines — le même résultat que sans mémoire. Exemple de question difficile : « Combien devrais-je enchérir à la vente aux enchères caritative ? » devrait rappeler un achat passé d'un sac à main à 800 $ comme base de dépenses, mais la similarité d'embedding ne peut pas relier ces concepts.
Rechercher quand on ne devrait pas est coûteux : Le modèle « toujours rechercher » lit environ 4,7K tokens de résultats par question, qu'ils aident ou non. La plupart du temps, les résultats sont du bruit non pertinent.

Le Problème Central

Les implémentations actuelles de la mémoire IA sont essentiellement des systèmes de recherche. La véritable conscience de la mémoire — savoir quelles informations sont stockées et faire remonter proactivement un contexte pertinent — est un problème différent que la recherche seule ne peut résoudre.

Le benchmark est disponible pour tester différentes approches à l'adresse : https://github.com/kevin-hs-sohn/memaware

📖 Read the full source: r/ClaudeAI

Les tests de référence MemAware évaluent la mémoire de l'IA au-delà de la simple recherche par mots-clés.

Fonctionnement du Benchmark

Principales Constatations

Le Problème Central

👀 See Also

Caliby : base de données vectorielle embarquée open-source pour agents IA avec stockage hybride texte+vecteurs

AIMEAT : Un protocole auto-hébergé pour les agents IA, les LLM locaux et les capacités partagées

Ultime MCP Unreal Engine : Claude Code peut désormais construire et vérifier des niveaux Unreal Engine avec 132 outils

Comparaison de 14 variantes d'agents d'IA Claw à travers 10 catégories