Benchmark MemAware : Mémoire RAG à 2,8 % de précision

Le benchmark MemAware comble une lacune dans les tests de mémoire des agents existants en évaluant si les agents IA peuvent récupérer un contexte passé pertinent lorsque les utilisateurs ne le demandent pas explicitement. La plupart des systèmes de mémoire d'agents actuels suivent un schéma simple : l'utilisateur pose une question → l'agent recherche en mémoire → récupère les résultats → répond. Cela fonctionne bien pour les requêtes explicites comme "quelle était la décision concernant la base de données ?" mais échoue lorsque le contexte est implicite.

Ce que teste MemAware

Le benchmark comprend 900 questions réparties sur trois niveaux de difficulté qui testent le rappel de contexte implicite :

Facile : Questions avec chevauchement de mots-clés (par exemple, "À quelle heure dois-je régler mon réveil pour ma réunion à 8h30 ?" devrait rappeler un trajet de 45 minutes)
Moyen : Questions dans le même domaine
Difficile : Questions inter-domaines sans liens de mots-clés (par exemple, "Ma Ford Mustang a besoin d'un filtre à air, où puis-je utiliser mes réductions fidélité ?" devrait rappeler que l'utilisateur fait ses courses chez Target)

Résultats du benchmark

Les tests avec BM25 local + recherche vectorielle ont révélé des limitations significatives :

Niveau facile : 6,0 % de précision
Niveau moyen : 3,7 % de précision
Niveau difficile : 0,7 % de précision — essentiellement la même chose que de ne pas avoir de mémoire du tout (0,8 %)

Le niveau difficile représente des problèmes non résolus où les requêtes de recherche ne connectent pas les concepts entre les domaines. L'auteur du benchmark suggère que des solutions efficaces pourraient nécessiter "une sorte de vue d'ensemble préchargée de l'historique complet de l'utilisateur plutôt qu'une récupération par requête".

Implications pratiques

Cela met en lumière une limitation fondamentale des systèmes de mémoire d'agents basés sur RAG actuels. Lorsque les utilisateurs n'utilisent pas les bons mots-clés ou lorsque les connexions s'étendent sur différents domaines, les approches de recherche standard échouent à récupérer le contexte pertinent. Le jeu de données et l'infrastructure de test sont open source sous licence MIT, permettant aux développeurs de tester leurs propres systèmes de mémoire.

📖 Read the full source: r/LocalLLaMA

Le benchmark MemAware montre que la mémoire des agents basés sur RAG échoue lors de la récupération de contexte implicite.

Ce que teste MemAware

Résultats du benchmark

Implications pratiques

👀 See Also

L'application de bureau Claude ajoute la fonctionnalité Projets à l'interface de collaboration

Open-source local hook bascule automatiquement entre les modèles Claude pour réduire les coûts d'IA

Projet d'autorecherche de Karpathy : des agents IA exécutent des expériences d'entraînement de LLM pendant la nuit.

Claude Sleuth : Un flux de travail d'investigation en 56 tâches pour Claude AI