mnemos: Eine persistente Gedächtnisschicht für KI-Coding-Agenten (Go, MCP-nativ, kein Python)

mnemos ist eine persistente Gedächtnisschicht für KI-Coding-Agenten, erstellt als einzelnes statisches Go-Binary (~15 MB) ohne Python, Docker und CGO. Es verwendet reines Go SQLite über modernc.org/sqlite und bietet hybrides Retrieval (BM25 + Vektoren per RRF) mit optionalem Ollama für Embeddings. Es ist MCP-nativ und läuft mit Claude Code, Cursor, Windsurf und Codex CLI.
Verifizierer und Benchmarks
Der Autor baute einen Verifizierer, der denselben Agenten zweimal ausführt (mit und ohne mnemos) unter demselben Prompt und Modell, um konkrete Verbesserungen zu messen. Drei Verifikationsmodi sind im Binary enthalten:
mnemos verify retrieval– prüft, ob die richtige Erinnerung für die Trigger-Abfrage auftauchtmnemos verify behavior– führt Claude mit an- vs. ausgeschaltetem mnemos aus und zählt, wie oft das Transkript einer Behauptung entsprichtmnemos verify capture– prüft, ob der Agent während einer Aufgabe übergebene Korrekturen aufzeichnet
Lese-Ergebnisse (n=5 gepaarte Durchläufe mit Claude Code):
session_start_on_edit: 5/5 mit, 0/5 ohne (+100%)oss_first_for_protocol: 5/5 mit, 0/5 ohne (+100%)no_ai_attribution_in_commit: 5/5 vs. 5/5 (keine Verbesserung)no_cgo_proposal: 5/5 vs. 5/5 (keine Verbesserung)migration_locked_refused: 5/5 vs. 5/5 (keine Verbesserung)
Aggregat +40%. Gedächtnis gewinnt, wo das Vorwissen des Modells falsch oder nicht vorhanden ist (konträre Konventionen, rekursives Tool-Gedächtnis). Bei allgemein bekannten Best Practices keine Verbesserung, aber auch keine Verschlechterung.
Schreibseitige Erfassung
Ursprüngliche Baseline: Agenten zeichneten nur 7% der ihnen während einer Aufgabe übergebenen Korrekturen auf. „Für zukünftige Sitzungen speichern“ wurde 3/3 Mal übersprungen. Nach zwei Fehlerbehebungsrunden erreichte die Erfassung 53%.
- Runde 1 (Tool-Beschreibungsanpassungen): Beispiele für Trigger-Phrasen wie „wir haben X versucht“ oder „in Zukunft Y verwenden“ hinzugefügt. Verbesserung von 7% auf 13% (Rauschen).
- Runde 2 (strukturelle Korrektur): Ein
UserPromptSubmit-Hook hinzugefügt, der korrekturförmige Formulierungen erkennt und einen Direktivenblock in den Prompt-Kontext einfügt. Der Agent behält den strukturierten Tool-Aufruf, aber der Trigger ist nicht überspringbar. Verbesserung von 13% auf 53%.
Das verbleibende Fehlermuster: Architekturentscheidungen, die in größeren Task-Prompts vergraben sind, liegen selbst mit der Direktive noch bei 0/3. Die stärkere Aufgabenformulierung scheint sie zu überlagern.
Technische Daten
- Einzelnes statisches Go-Binary, ~15 MB
- Reines Go SQLite via
modernc.org/sqlite - Hybrides Retrieval: BM25 + Vektoren per RRF, erkennt Ollama automatisch, funktioniert auch ohne
- MCP-nativ: läuft mit Claude Code, Cursor, Windsurf, Codex CLI
- Bi-temporaler Speicher, Prompt-Injection-Scanner an der Schreibgrenze, deterministische Korrektur-zu-Fähigkeit-Beförderung (kein LLM im Konsolidierungs-Loop)
- Lokal zuerst: Nichts verlässt Ihren Rechner, es sei denn, Sie verweisen es explizit auf OpenAI für Embeddings
Verifizierer-Testumgebung
Der Verifizierer befindet sich im verify/-Verzeichnis des Repositorys. Fixtures sind im YAML-Format und Szenarien leicht hinzuzufügen. Der Autor merkt an, dass n=5 klein ist und arbeitet derzeit an einem tau-bench pass@k-Benchmark.
Repository: https://github.com/polyxmedia/mnemos
📖 Read the full source: r/LocalLLaMA
👀 Siehe auch

Claude Code Mastery: Open-Source-Konfigurationssystem fügt persistenter Speicher und kuratierte Fähigkeiten zur Claude Code CLI hinzu
Claude Code Mastery ist ein Open-Source-Konfigurationssystem, das persistente Speicherung über Sitzungen hinweg, intelligente Lebenszyklus-Hooks und 26+ kuratierte Fähigkeiten zur Claude Code CLI hinzufügt. Es umfasst eine 6-Dateien-Memory-Bank pro Projekt, einen Zero-Config-Launcher und plattformübergreifende Unterstützung.

Claude Hindsight: Beobachtungstool für Claude-Code-Sitzungen
Claude Hindsight ist eine Open-Source-Beobachtungsschicht für Claude Code, die Tool-Aufrufe, Tokens und Fehler in ein erkundbares Dashboard erfasst. Der Ersteller nutzte es, um ein Open-Source-Projekt in einer einzigen 11-stündigen Sitzung mit 733 Tool-Aufrufen und 692,8M Cache-Tokens zu refaktorisieren.

Kaliber: Lokales CLI-Tool generiert KI-Coding-Assistent-Konfigurationen aus Ihrem Repository
Caliber ist ein lokal-first CLI-Tool, das Repositories in Sprachen wie TypeScript, Python, Go und Rust scannt und dann Prompt- und Konfigurationsdateien für KI-Coding-Assistenten wie Claude Code, Cursor und Codex generiert. Es läuft vollständig auf Ihrem Rechner mit Ihren eigenen Schlüsseln, hat 13k npm-Installationen und ist unter der MIT-Lizenz Open Source.

Brunnfeld Agentic World: Multi-Agenten-Simulation einer mittelalterlichen Wirtschaft ohne Verhaltensvorgaben
Eine TypeScript-Simulation, in der 20 LLM-Agenten autonom in einer mittelalterlichen Dorfwirtschaft handeln, ohne Verhaltensanweisungen, Ziele oder Handelsstrategien. Die Agenten erhalten pro Tick etwa 200 Token-Wahrnehmungen und interagieren über eine deterministische Engine, die Physik, Rezepte und Marktmechaniken verarbeitet.