mnemos: Go-basierte Gedächtnisschicht für KI-Agenten +40%

mnemos ist eine persistente Gedächtnisschicht für KI-Coding-Agenten, erstellt als einzelnes statisches Go-Binary (~15 MB) ohne Python, Docker und CGO. Es verwendet reines Go SQLite über modernc.org/sqlite und bietet hybrides Retrieval (BM25 + Vektoren per RRF) mit optionalem Ollama für Embeddings. Es ist MCP-nativ und läuft mit Claude Code, Cursor, Windsurf und Codex CLI.

Verifizierer und Benchmarks

Der Autor baute einen Verifizierer, der denselben Agenten zweimal ausführt (mit und ohne mnemos) unter demselben Prompt und Modell, um konkrete Verbesserungen zu messen. Drei Verifikationsmodi sind im Binary enthalten:

mnemos verify retrieval – prüft, ob die richtige Erinnerung für die Trigger-Abfrage auftaucht
mnemos verify behavior – führt Claude mit an- vs. ausgeschaltetem mnemos aus und zählt, wie oft das Transkript einer Behauptung entspricht
mnemos verify capture – prüft, ob der Agent während einer Aufgabe übergebene Korrekturen aufzeichnet

Lese-Ergebnisse (n=5 gepaarte Durchläufe mit Claude Code):

session_start_on_edit: 5/5 mit, 0/5 ohne (+100%)
oss_first_for_protocol: 5/5 mit, 0/5 ohne (+100%)
no_ai_attribution_in_commit: 5/5 vs. 5/5 (keine Verbesserung)
no_cgo_proposal: 5/5 vs. 5/5 (keine Verbesserung)
migration_locked_refused: 5/5 vs. 5/5 (keine Verbesserung)

Aggregat +40%. Gedächtnis gewinnt, wo das Vorwissen des Modells falsch oder nicht vorhanden ist (konträre Konventionen, rekursives Tool-Gedächtnis). Bei allgemein bekannten Best Practices keine Verbesserung, aber auch keine Verschlechterung.

Schreibseitige Erfassung

Ursprüngliche Baseline: Agenten zeichneten nur 7% der ihnen während einer Aufgabe übergebenen Korrekturen auf. „Für zukünftige Sitzungen speichern“ wurde 3/3 Mal übersprungen. Nach zwei Fehlerbehebungsrunden erreichte die Erfassung 53%.

Runde 1 (Tool-Beschreibungsanpassungen): Beispiele für Trigger-Phrasen wie „wir haben X versucht“ oder „in Zukunft Y verwenden“ hinzugefügt. Verbesserung von 7% auf 13% (Rauschen).
Runde 2 (strukturelle Korrektur): Ein UserPromptSubmit-Hook hinzugefügt, der korrekturförmige Formulierungen erkennt und einen Direktivenblock in den Prompt-Kontext einfügt. Der Agent behält den strukturierten Tool-Aufruf, aber der Trigger ist nicht überspringbar. Verbesserung von 13% auf 53%.

Das verbleibende Fehlermuster: Architekturentscheidungen, die in größeren Task-Prompts vergraben sind, liegen selbst mit der Direktive noch bei 0/3. Die stärkere Aufgabenformulierung scheint sie zu überlagern.

Technische Daten

Einzelnes statisches Go-Binary, ~15 MB
Reines Go SQLite via modernc.org/sqlite
Hybrides Retrieval: BM25 + Vektoren per RRF, erkennt Ollama automatisch, funktioniert auch ohne
MCP-nativ: läuft mit Claude Code, Cursor, Windsurf, Codex CLI
Bi-temporaler Speicher, Prompt-Injection-Scanner an der Schreibgrenze, deterministische Korrektur-zu-Fähigkeit-Beförderung (kein LLM im Konsolidierungs-Loop)
Lokal zuerst: Nichts verlässt Ihren Rechner, es sei denn, Sie verweisen es explizit auf OpenAI für Embeddings

Verifizierer-Testumgebung

Der Verifizierer befindet sich im verify/-Verzeichnis des Repositorys. Fixtures sind im YAML-Format und Szenarien leicht hinzuzufügen. Der Autor merkt an, dass n=5 klein ist und arbeitet derzeit an einem tau-bench pass@k-Benchmark.

Repository: https://github.com/polyxmedia/mnemos

📖 Read the full source: r/LocalLLaMA

mnemos: Eine persistente Gedächtnisschicht für KI-Coding-Agenten (Go, MCP-nativ, kein Python)

Verifizierer und Benchmarks

Schreibseitige Erfassung

Technische Daten

Verifizierer-Testumgebung

👀 Siehe auch

Claude Code Mastery: Open-Source-Konfigurationssystem fügt persistenter Speicher und kuratierte Fähigkeiten zur Claude Code CLI hinzu

Claude Hindsight: Beobachtungstool für Claude-Code-Sitzungen

Kaliber: Lokales CLI-Tool generiert KI-Coding-Assistent-Konfigurationen aus Ihrem Repository

Brunnfeld Agentic World: Multi-Agenten-Simulation einer mittelalterlichen Wirtschaft ohne Verhaltensvorgaben