Système de Mémoire Automatique Open Source pour Agents LLM Atteint une Précision de Rappel de 94 %

Un développeur a mis en open source un système de mémoire automatique pour les agents basés sur LLM qui extrait, classe et conserve automatiquement des faits entre les sessions sans nécessiter de commandes explicites "enregistre ceci". L'ensemble du projet—y compris le code du plugin, la conception du benchmark et le cadre de test—a été construit en utilisant Claude Code comme principal outil de développement.
Fonctionnement du système de mémoire
Le système fonctionne avec deux couches :
- Couche 1 (par tour) : Un LLM léger résume chaque tour en temps réel et écrit dans un fichier de mise en attente
- Couche 2 (limite de session) : Classification asynchrone en quatre fichiers de compétences : identité, connaissances, leçons et préférences
La récupération fonctionne en faisant charger à l'agent les fichiers de compétences pertinents basés sur la correspondance de mots-clés dans les descriptions. L'approche utilise des fichiers markdown structurés que l'agent lit comme des "compétences" plutôt que des bases de données vectorielles ou des pipelines RAG.
Développement avec Claude Code
Claude Code a aidé dans plusieurs aspects du projet :
- Conception de l'architecture : A aidé à évaluer LongMemEval comme candidat benchmark, a identifié le décalage de paradigme (récupération à long contexte vs mémoire progressive), et a proposé un benchmark adapté avec 6 types de questions
- Création du benchmark : A conçu la suite de tests complète de 20 sessions/48 faits incluant la table d'implantation des faits, les chaînes de mise à jour (A→B→C), les paires d'interférence, les questions d'abstention et le placement des déclencheurs à deux sauts
- Cadre de test : A construit l'ensemble du framework de test automatique incluant l'exécuteur série, l'interrogation multi-tours, la gestion du cycle de vie, l'évaluateur de règles et le pipeline de jugement LLM
- Débogage en boucle : A diagnostiqué des problèmes en direct pendant les exécutions de tests, comme une fenêtre contextuelle de mise à jour bloquant les redémarrages de l'Agent, qui a été corrigée en verrouillant le fichier d'état du programme de mise à jour en lecture seule
Résultats du benchmark
Le benchmark de 20 sessions s'est inspiré de LongMemEval et a testé 48 faits implantés à travers 6 types de questions :
- Rappel profond : Faits des sessions 1-2 testés 15+ sessions plus tard - 89 %
- Mise à jour des connaissances : Chaîne de correction à 3 niveaux (A→B→C) - 100 %
- Raisonnement inter-sessions : Combiner des faits de 3+ sessions - 100 %
- Résistance à l'interférence : Noms similaires qui ne devraient pas être confondus - 100 %
- Raisonnement temporel : Questions d'ordre "Lequel est venu en premier ?" - 80 %
- Abstention : "Je ne sais pas" pour les faits jamais mentionnés - 86 %
Globalement : 49/52 points de contrôle réussis (94,2 %). Le seul échec important s'est produit lorsque l'agent a déduit "vous avez fait du marketing sur les réseaux sociaux" à partir d'un fait vaguement lié ("travail de promotion") alors que la réponse correcte était "jamais discuté"—un problème classique de sur-inférence LLM.
Disponibilité et questions
Le projet est open source avec le code et le benchmark disponibles sur GitHub. Le développeur recherche des retours sur l'approche des fichiers de compétences (markdown structuré vs recherche vectorielle), de meilleures façons de tester l'abstention (identifiée comme la dimension la plus difficile), et des informations sur d'autres personnes qui benchmarkent la mémoire inter-sessions dans les agents (pas seulement le contexte long).
📖 Read the full source: r/ClaudeAI
👀 See Also

Rétro-ingénierie du Neural Engine d'Apple pour entraîner des modèles MicroGPT
Un développeur a rétro-conçu les API privées du Neural Engine d'Apple pour créer un pipeline d'entraînement pour un modèle MicroGPT de 110 millions de paramètres, atteignant une efficacité énergétique de 6,6 TFLOPs/watt sur le matériel Mac M4.

Traduire en fr : Détails visuels du flux de travail de Claude Code, hiérarchie de la mémoire et système de compétences
Un utilisateur de Reddit a partagé un diagramme visuel montrant comment Claude Code organise la mémoire via des fichiers CLAUDE.md en couches et implémente des compétences réutilisables via des fichiers SKILL.md. La boucle de flux de travail suggère d'utiliser le mode Plan avec acceptation automatique et des commits fréquents.

Open Source Rust MCP Server Donne à Claude des Capacités Complètes de Gestion d'Emails
Un développeur a créé un serveur MCP en Rust qui fournit à Claude 25 outils pour une gestion complète des emails, incluant la recherche IMAP, l'envoi SMTP, la prise en charge de l'API Microsoft Graph, et la gestion multi-comptes avec authentification OAuth2.

Créer des CLI pour les agents IA : principes de conception issus du CLI gws de Google
L'interface en ligne de commande gws de Google montre comment concevoir des interfaces en ligne de commande spécifiquement pour les agents d'IA, en privilégiant les charges utiles JSON brutes plutôt que les indicateurs conviviaux pour les humains et en mettant en place des garde-fous contre les hallucinations.