Bio-inspiriertes Gedächtnissystem für lokale LLMs: Implementierung von LTP und selektivem Vergessen

Bio-inspirierte Gedächtnisarchitektur für lokale LLMs
Ein Entwickler hat einen lokalen MCP-Server erstellt, der menschliche Gedächtnismechaniken simuliert, um sauberen Kontext für lokale LLMs zu erhalten. Das System implementiert drei bio-inspirierte Schichten in Python/TypeScript anstelle einer statischen RAG-Pipeline.
Kern-Gedächtnismechaniken
- Verstärkung (Long-Term Potentiation): Jedes Mal, wenn ein Thema abgefragt wird, erhöht sich dessen
access_count, wodurch häufig genutzte Erinnerungen gestärkt werden. - Selektives Vergessen: Ungenutzte Verbindungen zerfallen mit der Zeit, wobei das System schwache Atome automatisch archiviert, um Kontextverschmutzung zu verhindern.
- Konsolidierung: Ein wöchentlicher "Schlaf"-Zyklus destilliert kürzliche Protokolle mithilfe eines schlanken SLM in Kernwissensatome.
Technische Implementierungsdetails
- Hybridsuche: Kombiniert
sqlite-vecfür semantische Suche mit Text-Fallbacks, um Timeouts selbst bei fehlgeschlagenen Embeddings zu verhindern. - Nicht-blockierendes MCP: Wickelt synchrone Datenbank- und Embedding-Operationen in
asyncio-Executors ein, um LM Studio reaktionsfähig zu halten. - Identitätsschicht: Nutzt eine persistente "Soul"-Datei (
soul.md), um Zustand und Persona über Sitzungen hinweg zu bewahren. - Zugriffsbasierte Verstärkung: Der
access_count-Mechanismus ermöglicht es dem Modell, sich basierend auf Interaktionsmustern zu entwickeln, anstatt nur statische Fakten abzurufen.
Entwicklungskontext und Validierung
Das Projekt wurde entwickelt, um Kontextgrenzen in standardmäßigen RAG-Implementierungen für lokale KI zu adressieren. Der Entwickler validierte die Architektur, indem er ein lokales LLM (mit Gemini) den Code analysieren ließ, was drei Innovationen hervorhob: echte kognitive Agenten mit zugriffsbasierter Verstärkung und Zerfall, robuste Hybridsuche mit Fallbacks und nicht-blockierende Architektur für Reaktionsfähigkeit.
Das Ziel ist, ein System zu schaffen, das sich an Wichtiges erinnert und Rauschen vergisst, ähnlich dem menschlichen Gedächtnis während des Schlafs. Der Entwickler erforscht, ob bio-inspirierte Gedächtnisarchitekturen Kontextbeschränkungen lokal lösen können, ohne Cloud-Abhängigkeiten oder Blackboxen.
📖 Read the full source: r/LocalLLaMA
👀 Siehe auch

Agent-Frameworks verschwenden pro Sitzung über 350.000 Token durch erneutes Senden statischer Dateien.
Ein Benchmark auf einem lokalen Qwen 3.5 122B-Setup zeigte, dass Agent-Frameworks pro Sitzung über 350.000 Token verschwenden, indem sie statische Dateien erneut senden. Ein Compile-Time-Ansatz reduzierte den Abfragekontext von 1.373 Token auf 73, was einer Reduzierung um 95 % entspricht.

Claude Code-Fähigkeit erstellt App Store-Screenshots mit Gemini AI
Eine neue Claude Code-Fähigkeit namens /aso-cosmicmeta-ss erstellt App Store- und Google Play-Screenshots über einen 6-Phasen-Workflow, der Codebasen analysiert und Gemini AI zur Verbesserung nutzt. Die Fähigkeit enthält eine Freigabestufe, um Layoutprobleme zu erkennen, bevor API-Guthaben verwendet werden.

Strukturierte Denkvorlage verbessert die Genauigkeit von KI-Code-Reviews
Ein Reddit-Nutzer teilt eine strukturierte Denkvorlage, die von der Meta-Forschung adaptiert wurde und KI-Modelle dazu zwingt, bestimmte analytische Schritte abzuschließen, bevor sie Code-Reviews generieren, was die Genauigkeit laut arXiv:2603.01896 um 5-12 Prozentpunkte verbessert.

Open-Source-Claude-Code-Fähigkeit diagnostiziert Hindernisse bei der KI-Einführung
Eine MIT-lizenzierte Claude Code-Fähigkeit analysiert, wo Unternehmen bei der KI-Einführung stecken bleiben – bei Tools, Kultur oder Messung – und erstellt 90-Tage-Pläne mit benannten Verantwortlichen. Basierend auf Interviews mit über 100 Gründern und Vorstandsmitgliedern.