Plugin Mémoire LLM Open Source : 94% de Précision de Rappel

Un développeur a mis en open source un système de mémoire automatique pour les agents basés sur LLM qui extrait, classe et conserve automatiquement des faits entre les sessions sans nécessiter de commandes explicites "enregistre ceci". L'ensemble du projet—y compris le code du plugin, la conception du benchmark et le cadre de test—a été construit en utilisant Claude Code comme principal outil de développement.

Fonctionnement du système de mémoire

Le système fonctionne avec deux couches :

Couche 1 (par tour) : Un LLM léger résume chaque tour en temps réel et écrit dans un fichier de mise en attente
Couche 2 (limite de session) : Classification asynchrone en quatre fichiers de compétences : identité, connaissances, leçons et préférences

La récupération fonctionne en faisant charger à l'agent les fichiers de compétences pertinents basés sur la correspondance de mots-clés dans les descriptions. L'approche utilise des fichiers markdown structurés que l'agent lit comme des "compétences" plutôt que des bases de données vectorielles ou des pipelines RAG.

Développement avec Claude Code

Claude Code a aidé dans plusieurs aspects du projet :

Conception de l'architecture : A aidé à évaluer LongMemEval comme candidat benchmark, a identifié le décalage de paradigme (récupération à long contexte vs mémoire progressive), et a proposé un benchmark adapté avec 6 types de questions
Création du benchmark : A conçu la suite de tests complète de 20 sessions/48 faits incluant la table d'implantation des faits, les chaînes de mise à jour (A→B→C), les paires d'interférence, les questions d'abstention et le placement des déclencheurs à deux sauts
Cadre de test : A construit l'ensemble du framework de test automatique incluant l'exécuteur série, l'interrogation multi-tours, la gestion du cycle de vie, l'évaluateur de règles et le pipeline de jugement LLM
Débogage en boucle : A diagnostiqué des problèmes en direct pendant les exécutions de tests, comme une fenêtre contextuelle de mise à jour bloquant les redémarrages de l'Agent, qui a été corrigée en verrouillant le fichier d'état du programme de mise à jour en lecture seule

Résultats du benchmark

Le benchmark de 20 sessions s'est inspiré de LongMemEval et a testé 48 faits implantés à travers 6 types de questions :

Rappel profond : Faits des sessions 1-2 testés 15+ sessions plus tard - 89 %
Mise à jour des connaissances : Chaîne de correction à 3 niveaux (A→B→C) - 100 %
Raisonnement inter-sessions : Combiner des faits de 3+ sessions - 100 %
Résistance à l'interférence : Noms similaires qui ne devraient pas être confondus - 100 %
Raisonnement temporel : Questions d'ordre "Lequel est venu en premier ?" - 80 %
Abstention : "Je ne sais pas" pour les faits jamais mentionnés - 86 %

Globalement : 49/52 points de contrôle réussis (94,2 %). Le seul échec important s'est produit lorsque l'agent a déduit "vous avez fait du marketing sur les réseaux sociaux" à partir d'un fait vaguement lié ("travail de promotion") alors que la réponse correcte était "jamais discuté"—un problème classique de sur-inférence LLM.

Disponibilité et questions

Le projet est open source avec le code et le benchmark disponibles sur GitHub. Le développeur recherche des retours sur l'approche des fichiers de compétences (markdown structuré vs recherche vectorielle), de meilleures façons de tester l'abstention (identifiée comme la dimension la plus difficile), et des informations sur d'autres personnes qui benchmarkent la mémoire inter-sessions dans les agents (pas seulement le contexte long).

📖 Read the full source: r/ClaudeAI

Système de Mémoire Automatique Open Source pour Agents LLM Atteint une Précision de Rappel de 94 %

Fonctionnement du système de mémoire

Développement avec Claude Code

Résultats du benchmark

Disponibilité et questions

👀 See Also

Claude Code Skill Convertit les Designs Stitch en Next.js sans Dérive de Pixel

Résultats des tests A/B : Les hooks oh-my-claudecode montrent un impact minimal sur les performances de Claude Code.

Cadre de Prompt Visuel Remplace les Prompts Textuels par une Image Unique pour Claude AI

200+ spécifications de conception d'applications en Markdown – Glissez dans Claude ou Cursor pour des clones UI exacts