LLM Memory System: 94% Recall Accuracy Open-Source Plugin

Ein Entwickler hat ein automatisches Speichersystem für LLM-basierte Agenten als Open-Source veröffentlicht, das automatisch Fakten über Sitzungen hinweg extrahiert, klassifiziert und speichert, ohne explizite "speichere dies"-Befehle zu benötigen. Das gesamte Projekt – einschließlich Plugin-Code, Benchmark-Design und Testumgebung – wurde mit Claude Code als primärem Entwicklungswerkzeug erstellt.

Wie das Speichersystem funktioniert

Das System arbeitet mit zwei Ebenen:

Ebene 1 (pro Runde): Ein leichtgewichtiges LLM fasst jede Runde in Echtzeit zusammen und schreibt in eine Staging-Datei
Ebene 2 (Sitzungsgrenze): Asynchrone Klassifizierung in vier Skill-Dateien: Identität, Wissen, Lektionen und Präferenzen

Der Abruf funktioniert, indem der Agent relevante Skill-Dateien basierend auf Schlüsselwortübereinstimmungen in Beschreibungen lädt. Der Ansatz verwendet strukturierte Markdown-Dateien, die der Agent als "Fähigkeiten" liest, anstatt Vektordatenbanken oder RAG-Pipelines.

Entwicklung mit Claude Code

Claude Code unterstützte mehrere Aspekte des Projekts:

Architekturdesign: Half bei der Bewertung von LongMemEval als Benchmark-Kandidat, identifizierte das Paradigmen-Missverhältnis (Langzeitkontext-Abruf vs. progressiver Speicher) und schlug einen angepassten 6-Fragentyp-Benchmark vor
Benchmark-Erstellung: Entwarf den vollständigen 20-Sitzungen/48-Fakten-Testsatz einschließlich Fakten-Einpflanzungstabelle, Aktualisierungsketten (A→B→C), Interferenzpaare, Enthaltungsfragen und Platzierung von Zwei-Sprung-Auslösern
Testumgebung: Erbaute das gesamte Autotest-Framework einschließlich seriellem Ausführer, Mehrfachrunden-Abfrage, Lebenszyklusverwaltung, Regelauswerter und LLM-Richter-Pipeline
Debugging im Loop: Diagnostizierte Probleme live während Testläufen, wie etwa ein Update-Popup, das Agent-Neustarts blockierte, was durch Sperren der Updater-Statusdatei auf schreibgeschützt behoben wurde

Benchmark-Ergebnisse

Der 20-Sitzungen-Benchmark war von LongMemEval inspiriert und testete 48 eingepflanzte Fakten über 6 Fragentypen:

Tiefenrückruf: Fakten aus Sitzungen 1-2, 15+ Sitzungen später getestet - 89 %
Wissensaktualisierung: 3-stufige Korrekturkette (A→B→C) - 100 %
Sitzungsübergreifendes Schlussfolgern: Kombiniere Fakten aus 3+ Sitzungen - 100 %
Interferenzresistenz: Ähnliche Namen, die nicht verwechselt werden sollten - 100 %
Zeitliches Schlussfolgern: "Was kam zuerst?"-Ordnungsfragen - 80 %
Enthaltung: "Ich weiß nicht" für nie erwähnte Fakten - 86 %

Gesamt: 49/52 Prüfpunkte bestanden (94,2 %). Der einzige harte Fehler trat auf, als der Agent aus einer vage verwandten Tatsache ("Promotionsarbeit") schloss, dass "Sie Social-Media-Marketing betrieben haben", während die korrekte Antwort "nie besprochen" war – ein klassisches LLM-Überschlussfolgerungsproblem.

Verfügbarkeit und Fragen

Das Projekt ist Open Source mit Code und Benchmark auf GitHub verfügbar. Der Entwickler sucht Feedback zum Skill-Datei-Ansatz (strukturiertes Markdown vs. Vektorsuche), besseren Wegen zum Testen von Enthaltung (als schwierigste Dimension identifiziert) und Informationen über andere, die sitzungsübergreifendes Gedächtnis in Agenten benchmarken (nicht nur Langzeitkontext).

📖 Read the full source: r/ClaudeAI

Open-Source-Auto-Memory-System für LLM-Agenten erreicht 94 % Erinnerungsgenauigkeit

Wie das Speichersystem funktioniert

Entwicklung mit Claude Code

Benchmark-Ergebnisse

Verfügbarkeit und Fragen

👀 Siehe auch

Lore: MCP-Server, der KI-Agenten-Sitzungsverlauf zwischen Tools teilt

Career-Ops Fork fügt LinkedIn-Job-Entdeckung mit Apify hinzu

Clooks: Eine persistente Hook-Laufzeitumgebung für Claude Code

Claude Code AFK Agent: Führen Sie Discord-gestützte autonome Arbeiter über das Teams-Plugin aus