mnemos : Une couche de mémoire persistante pour les agents de codage IA (Go, MCP-Natif, Pas de Python)

mnemos est une couche mémoire persistante pour les agents de codage IA, construite sous forme d'un binaire Go statique unique (~15 Mo) sans Python, sans Docker et sans CGO. Il utilise SQLite pur Go via modernc.org/sqlite et propose une récupération hybride (BM25 + vecteurs via RRF) avec Ollama optionnel pour les embeddings. Il est natif MCP, fonctionnant avec Claude Code, Cursor, Windsurf et Codex CLI.
Vérificateur et benchmarks
L'auteur a construit un vérificateur qui exécute le même agent deux fois (avec et sans mnemos) sous la même invite et le même modèle, pour mesurer l'amélioration concrète. Trois modes de vérification sont intégrés dans le binaire :
mnemos verify retrieval– vérifie si la bonne mémoire apparaît pour sa requête de déclenchementmnemos verify behavior– exécute Claude avec mnemos activé/désactivé, compte combien de fois la transcription correspond à une assertionmnemos verify capture– vérifie si l'agent enregistre les corrections qui lui sont données pendant une tâche
Résultats côté lecture (n=5 exécutions appariées sur Claude Code) :
session_start_on_edit: 5/5 avec, 0/5 sans (+100%)oss_first_for_protocol: 5/5 avec, 0/5 sans (+100%)no_ai_attribution_in_commit: 5/5 contre 5/5 (aucune amélioration)no_cgo_proposal: 5/5 contre 5/5 (aucune amélioration)migration_locked_refused: 5/5 contre 5/5 (aucune amélioration)
Amélioration agrégée de +40%. La mémoire gagne là où l'a priori du modèle est erroné ou absent (conventions contraires, mémoire d'outils récursive). Sur les bonnes pratiques largement connues, pas d'amélioration, mais pas de dégradation non plus.
Capture côté écriture
Référence initiale : les agents n'enregistraient que 7% des corrections qui leur étaient données pendant une tâche. « Sauvegarde ceci pour les sessions futures » a été ignoré 3 fois sur 3. Après deux séries de corrections, le taux de capture a atteint 53%.
- Cycle 1 (ajustements de description d'outils) : Ajout d'exemples de phrases déclencheurs comme « nous avons essayé X » ou « à l'avenir, utilise Y ». Passage de 7% à 13% (bruit).
- Cycle 2 (correction structurelle) : Ajout d'un hook
UserPromptSubmitqui détecte les formulations ressemblant à des corrections et émet un bloc de directives dans le contexte de l'invite. L'agent conserve l'appel d'outil structuré, mais le déclencheur ne peut être ignoré. Passage de 13% à 53%.
Le schéma d'échec restant : les décisions architecturales enfouies dans des invites de tâches plus volumineuses restent à 0/3 même avec la directive. Le cadrage plus fort de la tâche semble la supplanter.
Spécifications techniques
- Binaire Go statique unique, ~15 Mo
- SQLite pur Go via
modernc.org/sqlite - Récupération hybride : BM25 + vecteurs via RRF, détection automatique d'Ollama, fonctionne parfaitement sans
- Natif MCP : fonctionne avec Claude Code, Cursor, Windsurf, Codex CLI
- Stockage bitemporel, injecteur de détection d'invite à la frontière d'écriture, promotion déterministe correction-compétence (pas d'LLM dans la boucle de consolidation)
- Local d'abord : rien ne quitte votre machine sauf si vous le pointez explicitement vers OpenAI pour les embeddings
Banc de test du vérificateur
Le vérificateur se trouve dans verify/ du dépôt. Les fixtures sont en YAML et les scénarios sont faciles à ajouter. L'auteur note que n=5 est petit et travaille sur un benchmark tau-bench pass@k ensuite.
Dépôt : https://github.com/polyxmedia/mnemos
📖 Lire la source complète : r/LocalLLaMA
👀 See Also

Skir : Une alternative moderne aux Protocoles Buffers pour l'échange de données typé
Skir est un langage déclaratif pour définir des types de données, des constantes et des API qui génère du code idiomatique et type-safe en TypeScript, Python, Java, C++, Kotlin et Dart à partir d'un seul fichier .skir. Il inclut une sécurité intégrée pour l'évolution des schémas, un support RPC similaire à gRPC, et une sérialisation vers des formats JSON ou binaires.

TextForge : Un outil d'approbation d'emails conçu par Claude Code pour les flux de travail LLM
Un développeur a créé TextForge en utilisant Claude Code pour automatiser les flux de travail d'e-mails avec des étapes d'approbation obligatoires, empêchant les LLM d'envoyer des e-mails sans autorisation explicite. L'outil s'intègre avec le CRM Pipedrive et a nécessité la conformité à l'audit de sécurité Google CASA2.

VibeIndex.ai : Plateforme de recherche pour plus de 90 000 compétences IA, MCP et plugins avec analyse de sécurité
Un chercheur coréen en IA a créé vibeindex.ai, un hub consultable qui indexe plus de 90 000 compétences en IA, serveurs MCP et plugins avec des mises à jour horaires et une analyse de sécurité utilisant Cisco Skill Scanner à travers 17 catégories de menaces.

50 applications populaires rétro-conçues en spécifications de conception lisibles par Claude : Modèles clés pour le clonage d'interface utilisateur
u/meliwat a déconstruit 50 applications populaires en spécifications de design structurées en markdown. Claude excelle dans les clones d'IU avec des valeurs exactes, une couverture des états, des échelles d'espacement et des graphes de navigation. Un texte trop long dégrade la qualité de la sortie.