Couche mémoire persistante mnemos : +40% pour agents IA

mnemos est une couche mémoire persistante pour les agents de codage IA, construite sous forme d'un binaire Go statique unique (~15 Mo) sans Python, sans Docker et sans CGO. Il utilise SQLite pur Go via modernc.org/sqlite et propose une récupération hybride (BM25 + vecteurs via RRF) avec Ollama optionnel pour les embeddings. Il est natif MCP, fonctionnant avec Claude Code, Cursor, Windsurf et Codex CLI.

Vérificateur et benchmarks

L'auteur a construit un vérificateur qui exécute le même agent deux fois (avec et sans mnemos) sous la même invite et le même modèle, pour mesurer l'amélioration concrète. Trois modes de vérification sont intégrés dans le binaire :

mnemos verify retrieval – vérifie si la bonne mémoire apparaît pour sa requête de déclenchement
mnemos verify behavior – exécute Claude avec mnemos activé/désactivé, compte combien de fois la transcription correspond à une assertion
mnemos verify capture – vérifie si l'agent enregistre les corrections qui lui sont données pendant une tâche

Résultats côté lecture (n=5 exécutions appariées sur Claude Code) :

session_start_on_edit : 5/5 avec, 0/5 sans (+100%)
oss_first_for_protocol : 5/5 avec, 0/5 sans (+100%)
no_ai_attribution_in_commit : 5/5 contre 5/5 (aucune amélioration)
no_cgo_proposal : 5/5 contre 5/5 (aucune amélioration)
migration_locked_refused : 5/5 contre 5/5 (aucune amélioration)

Amélioration agrégée de +40%. La mémoire gagne là où l'a priori du modèle est erroné ou absent (conventions contraires, mémoire d'outils récursive). Sur les bonnes pratiques largement connues, pas d'amélioration, mais pas de dégradation non plus.

Capture côté écriture

Référence initiale : les agents n'enregistraient que 7% des corrections qui leur étaient données pendant une tâche. « Sauvegarde ceci pour les sessions futures » a été ignoré 3 fois sur 3. Après deux séries de corrections, le taux de capture a atteint 53%.

Cycle 1 (ajustements de description d'outils) : Ajout d'exemples de phrases déclencheurs comme « nous avons essayé X » ou « à l'avenir, utilise Y ». Passage de 7% à 13% (bruit).
Cycle 2 (correction structurelle) : Ajout d'un hook UserPromptSubmit qui détecte les formulations ressemblant à des corrections et émet un bloc de directives dans le contexte de l'invite. L'agent conserve l'appel d'outil structuré, mais le déclencheur ne peut être ignoré. Passage de 13% à 53%.

Le schéma d'échec restant : les décisions architecturales enfouies dans des invites de tâches plus volumineuses restent à 0/3 même avec la directive. Le cadrage plus fort de la tâche semble la supplanter.

Spécifications techniques

Binaire Go statique unique, ~15 Mo
SQLite pur Go via modernc.org/sqlite
Récupération hybride : BM25 + vecteurs via RRF, détection automatique d'Ollama, fonctionne parfaitement sans
Natif MCP : fonctionne avec Claude Code, Cursor, Windsurf, Codex CLI
Stockage bitemporel, injecteur de détection d'invite à la frontière d'écriture, promotion déterministe correction-compétence (pas d'LLM dans la boucle de consolidation)
Local d'abord : rien ne quitte votre machine sauf si vous le pointez explicitement vers OpenAI pour les embeddings

Banc de test du vérificateur

Le vérificateur se trouve dans verify/ du dépôt. Les fixtures sont en YAML et les scénarios sont faciles à ajouter. L'auteur note que n=5 est petit et travaille sur un benchmark tau-bench pass@k ensuite.

Dépôt : https://github.com/polyxmedia/mnemos

📖 Lire la source complète : r/LocalLLaMA

mnemos : Une couche de mémoire persistante pour les agents de codage IA (Go, MCP-Natif, Pas de Python)

Vérificateur et benchmarks

Capture côté écriture

Spécifications techniques

Banc de test du vérificateur

👀 See Also

Skir : Une alternative moderne aux Protocoles Buffers pour l'échange de données typé

TextForge : Un outil d'approbation d'emails conçu par Claude Code pour les flux de travail LLM

VibeIndex.ai : Plateforme de recherche pour plus de 90 000 compétences IA, MCP et plugins avec analyse de sécurité

50 applications populaires rétro-conçues en spécifications de conception lisibles par Claude : Modèles clés pour le clonage d'interface utilisateur