mnemos: Eine persistente Gedächtnisschicht für KI-Coding-Agenten (Go, MCP-nativ, kein Python)

mnemos ist eine persistente Gedächtnisschicht für KI-Coding-Agenten, erstellt als einzelnes statisches Go-Binary (~15 MB) ohne Python, Docker und CGO. Es verwendet reines Go SQLite über modernc.org/sqlite und bietet hybrides Retrieval (BM25 + Vektoren per RRF) mit optionalem Ollama für Embeddings. Es ist MCP-nativ und läuft mit Claude Code, Cursor, Windsurf und Codex CLI.
Verifizierer und Benchmarks
Der Autor baute einen Verifizierer, der denselben Agenten zweimal ausführt (mit und ohne mnemos) unter demselben Prompt und Modell, um konkrete Verbesserungen zu messen. Drei Verifikationsmodi sind im Binary enthalten:
mnemos verify retrieval– prüft, ob die richtige Erinnerung für die Trigger-Abfrage auftauchtmnemos verify behavior– führt Claude mit an- vs. ausgeschaltetem mnemos aus und zählt, wie oft das Transkript einer Behauptung entsprichtmnemos verify capture– prüft, ob der Agent während einer Aufgabe übergebene Korrekturen aufzeichnet
Lese-Ergebnisse (n=5 gepaarte Durchläufe mit Claude Code):
session_start_on_edit: 5/5 mit, 0/5 ohne (+100%)oss_first_for_protocol: 5/5 mit, 0/5 ohne (+100%)no_ai_attribution_in_commit: 5/5 vs. 5/5 (keine Verbesserung)no_cgo_proposal: 5/5 vs. 5/5 (keine Verbesserung)migration_locked_refused: 5/5 vs. 5/5 (keine Verbesserung)
Aggregat +40%. Gedächtnis gewinnt, wo das Vorwissen des Modells falsch oder nicht vorhanden ist (konträre Konventionen, rekursives Tool-Gedächtnis). Bei allgemein bekannten Best Practices keine Verbesserung, aber auch keine Verschlechterung.
Schreibseitige Erfassung
Ursprüngliche Baseline: Agenten zeichneten nur 7% der ihnen während einer Aufgabe übergebenen Korrekturen auf. „Für zukünftige Sitzungen speichern“ wurde 3/3 Mal übersprungen. Nach zwei Fehlerbehebungsrunden erreichte die Erfassung 53%.
- Runde 1 (Tool-Beschreibungsanpassungen): Beispiele für Trigger-Phrasen wie „wir haben X versucht“ oder „in Zukunft Y verwenden“ hinzugefügt. Verbesserung von 7% auf 13% (Rauschen).
- Runde 2 (strukturelle Korrektur): Ein
UserPromptSubmit-Hook hinzugefügt, der korrekturförmige Formulierungen erkennt und einen Direktivenblock in den Prompt-Kontext einfügt. Der Agent behält den strukturierten Tool-Aufruf, aber der Trigger ist nicht überspringbar. Verbesserung von 13% auf 53%.
Das verbleibende Fehlermuster: Architekturentscheidungen, die in größeren Task-Prompts vergraben sind, liegen selbst mit der Direktive noch bei 0/3. Die stärkere Aufgabenformulierung scheint sie zu überlagern.
Technische Daten
- Einzelnes statisches Go-Binary, ~15 MB
- Reines Go SQLite via
modernc.org/sqlite - Hybrides Retrieval: BM25 + Vektoren per RRF, erkennt Ollama automatisch, funktioniert auch ohne
- MCP-nativ: läuft mit Claude Code, Cursor, Windsurf, Codex CLI
- Bi-temporaler Speicher, Prompt-Injection-Scanner an der Schreibgrenze, deterministische Korrektur-zu-Fähigkeit-Beförderung (kein LLM im Konsolidierungs-Loop)
- Lokal zuerst: Nichts verlässt Ihren Rechner, es sei denn, Sie verweisen es explizit auf OpenAI für Embeddings
Verifizierer-Testumgebung
Der Verifizierer befindet sich im verify/-Verzeichnis des Repositorys. Fixtures sind im YAML-Format und Szenarien leicht hinzuzufügen. Der Autor merkt an, dass n=5 klein ist und arbeitet derzeit an einem tau-bench pass@k-Benchmark.
Repository: https://github.com/polyxmedia/mnemos
📖 Read the full source: r/LocalLLaMA
👀 Siehe auch

CloudRouter stärkt KI-Coding-Agenten mit VM- und GPU-Management.
CloudRouter stellt ein CLI-Tool vor, das es KI-Coding-Agenten ermöglicht, selbstständig Cloud-VMs und GPUs bereitzustellen und Aufgaben wie Browser-Überprüfungen und GPU-intensive Workloads zu automatisieren.

OpenTrace: Selbst gehosteter Observability-Server mit über 75 MCP-Tools
OpenTrace ist ein selbst gehosteter Observability-Server, der über 75+ MCP-Tools Logs, Nutzeranalysen und Datenbank-Introspection bietet und auf einem 4-Dollar-VPS mit SQLite-Speicher und schreibgeschützten Postgres-Verbindungen läuft.

Skalierung von Karpathys Autoresearch mit 16 GPUs: Ergebnisse und Methoden
Das SkyPilot-Team gab Claude Code Zugriff auf 16 GPUs in einem Kubernetes-Cluster, um Karpathys Autoresearch-Projekt auszuführen. In 8 Stunden reichte der Agent ~910 Experimente ein, reduzierte die Validierungsbits pro Byte von 1,003 auf 0,974 (2,87 % Verbesserung) und erreichte den besten Validierungsverlust 9-mal schneller als bei sequentieller Ausführung.

Ouroboros 0.26.0-beta kombiniert Claude und Codex über einen MCP-Server
Ouroboros 0.26.0-beta führt ein Steuerungssystem ein, das Claude und Codex gleichzeitig ausführt und dabei Claude zur Klärung der Nutzerabsicht einsetzt, während Codex klar definierte Aufgaben über eine MCP-Serverarchitektur ausführt.