Memento v1.0: Lokaler persistenter Speicher für KI-Coding-Agenten

Was Memento v1.0 leistet
Memento v1.0 bietet eine lokale, persistente Speicherschicht für KI-Coding-Agenten. Alles läuft auf Ihrem Rechner – Einbettungen, Speicherung und Suche – ohne Cloud-Anforderungen oder API-Schlüssel nach der Einrichtung.
Wichtige technische Details
Einbettungen: Verwendet all-MiniLM-L6-v2 über @xenova/transformers (384 Dimensionen) vollständig offline. Optionale Cloud-Einbettungen über Umgebungsvariablen für OpenAI (text-embedding-3-small) oder Gemini (embedding-001).
Speicherung: Lokale JSON + HNSW-Index standardmäßig. Optionale ChromaDB- oder Neo4j-Unterstützung.
Suche: HNSW-Index für approximierte nächste-Nachbar-Suche (<50ms bei 2000+ Erinnerungen). Vollständige BM25-Implementierung mit k1=1.2, b=0.75 für Stichwortsuche. Hybridmodus kombiniert 70% Kosinus-Ähnlichkeit + 30% BM25.
Deduplizierung: SHA-256 + 0.92 Kosinus-Schwellenwert.
Resilienz-Funktionen: Circuit Breaker, Write-Ahead-Log, LRU-Cache.
Speicherverwaltung: 347-tägiger exponentieller Verfall für Bedeutungswerte.
Einrichtung und Nutzung
Installation mit: npx memento-memory setup
Migrations-Tool: memory_migrate erstellt Ihre gesamte Speicherung neu beim Wechsel des Einbettungsanbieters – keine Datenverluste.
IDE-Unterstützung und Tools
Multi-IDE-Kompatibilität: Claude Code, Cursor, Windsurf, OpenCode – alle nutzen denselben lokalen Speicher.
17 MCP-Tools für Speichern/Abrufen/Suchen/Exportieren/Importieren/Erfassen/Kompaktieren/Grafik/Sitzungslebenszyklus.
Datenschutz und Lizenzierung
Keine Telemetrie – Ihre Architekturentscheidungen und Codemuster verlassen nie Ihren Rechner. Funktioniert nach Einrichtung ohne Internet. AGPL-3.0-lizenziert und mit einem Befehl selbst hostbar.
📖 Quelle vollständig lesen: r/LocalLLaMA
👀 Siehe auch

Qwen 3.6 27B F16 besteht den Pacman-Codierungstest, aber 8-Bit-Quantisierungen scheitern — Wichtige Lektionen zu Vorlagen und MTP-spekulativer Dekodierung
Ein Benutzer erledigt einen Pacman-Klon mit Qwen 3.6 27B F16 in einem Durchgang – zwei von drei Versuchen produzieren fast perfekte Spiele. 8-Bit-Quantisierungen scheitern völlig. Detaillierte Notizen zur Chat-Vorlagenoptimierung und zu MTP-Spekulationsdekodierungsgeschwindigkeitssteigerungen.

Logik-Virtuelle Maschine: Ein Prompt-basiertes System zur Vermeidung von LLM-Denkkollapsen
Ein Forscher hat einen Logik-Virtual-Machine-Prompt (LVM) entwickelt, der LLMs dazu zwingt, anzuhalten und spezifische Kollapsmodi zu melden, wenn sie auf Paradoxien oder Abweichungen in der Argumentation stoßen. Dies basiert auf einem einzigen Stabilitätsgesetz: K(σ) ⇒ K(β(σ)). Der Prompt ist substratunabhängig und funktioniert mit Modellen wie Grok und Claude.

LocalSynapse MCP-Server fügt macOS-Unterstützung und Suchverbesserungen hinzu
LocalSynapse, ein Offline-MCP-Server zur Suche in lokalen Dokumenten, unterstützt jetzt macOS und enthält Korrekturen für Suchanfragen mit mehreren Wörtern. Der Entwickler hat Feedback-gesteuerte Verbesserungen implementiert, darunter positionsangepasstes Klick-Boosting und Zeitverfall als Förderung.

Apideck CLI: Eine Low-Context-Alternative zu MCP für KI-Agenten
Apideck CLI ist eine KI-Agent-Schnittstelle, die etwa 80 Tokens für ihren Agenten-Prompt verwendet, anstatt Zehntausende für Werkzeugschemata, und adressiert damit das Kontextfenster-Verbrauchsproblem von MCP. Benchmarks zeigen, dass MCP für identische Operationen 4- bis 32-mal mehr Tokens kosten kann als die CLI.