Open-Source-Auto-Memory-System für LLM-Agenten erreicht 94 % Erinnerungsgenauigkeit

Ein Entwickler hat ein automatisches Speichersystem für LLM-basierte Agenten als Open-Source veröffentlicht, das automatisch Fakten über Sitzungen hinweg extrahiert, klassifiziert und speichert, ohne explizite "speichere dies"-Befehle zu benötigen. Das gesamte Projekt – einschließlich Plugin-Code, Benchmark-Design und Testumgebung – wurde mit Claude Code als primärem Entwicklungswerkzeug erstellt.
Wie das Speichersystem funktioniert
Das System arbeitet mit zwei Ebenen:
- Ebene 1 (pro Runde): Ein leichtgewichtiges LLM fasst jede Runde in Echtzeit zusammen und schreibt in eine Staging-Datei
- Ebene 2 (Sitzungsgrenze): Asynchrone Klassifizierung in vier Skill-Dateien: Identität, Wissen, Lektionen und Präferenzen
Der Abruf funktioniert, indem der Agent relevante Skill-Dateien basierend auf Schlüsselwortübereinstimmungen in Beschreibungen lädt. Der Ansatz verwendet strukturierte Markdown-Dateien, die der Agent als "Fähigkeiten" liest, anstatt Vektordatenbanken oder RAG-Pipelines.
Entwicklung mit Claude Code
Claude Code unterstützte mehrere Aspekte des Projekts:
- Architekturdesign: Half bei der Bewertung von LongMemEval als Benchmark-Kandidat, identifizierte das Paradigmen-Missverhältnis (Langzeitkontext-Abruf vs. progressiver Speicher) und schlug einen angepassten 6-Fragentyp-Benchmark vor
- Benchmark-Erstellung: Entwarf den vollständigen 20-Sitzungen/48-Fakten-Testsatz einschließlich Fakten-Einpflanzungstabelle, Aktualisierungsketten (A→B→C), Interferenzpaare, Enthaltungsfragen und Platzierung von Zwei-Sprung-Auslösern
- Testumgebung: Erbaute das gesamte Autotest-Framework einschließlich seriellem Ausführer, Mehrfachrunden-Abfrage, Lebenszyklusverwaltung, Regelauswerter und LLM-Richter-Pipeline
- Debugging im Loop: Diagnostizierte Probleme live während Testläufen, wie etwa ein Update-Popup, das Agent-Neustarts blockierte, was durch Sperren der Updater-Statusdatei auf schreibgeschützt behoben wurde
Benchmark-Ergebnisse
Der 20-Sitzungen-Benchmark war von LongMemEval inspiriert und testete 48 eingepflanzte Fakten über 6 Fragentypen:
- Tiefenrückruf: Fakten aus Sitzungen 1-2, 15+ Sitzungen später getestet - 89 %
- Wissensaktualisierung: 3-stufige Korrekturkette (A→B→C) - 100 %
- Sitzungsübergreifendes Schlussfolgern: Kombiniere Fakten aus 3+ Sitzungen - 100 %
- Interferenzresistenz: Ähnliche Namen, die nicht verwechselt werden sollten - 100 %
- Zeitliches Schlussfolgern: "Was kam zuerst?"-Ordnungsfragen - 80 %
- Enthaltung: "Ich weiß nicht" für nie erwähnte Fakten - 86 %
Gesamt: 49/52 Prüfpunkte bestanden (94,2 %). Der einzige harte Fehler trat auf, als der Agent aus einer vage verwandten Tatsache ("Promotionsarbeit") schloss, dass "Sie Social-Media-Marketing betrieben haben", während die korrekte Antwort "nie besprochen" war – ein klassisches LLM-Überschlussfolgerungsproblem.
Verfügbarkeit und Fragen
Das Projekt ist Open Source mit Code und Benchmark auf GitHub verfügbar. Der Entwickler sucht Feedback zum Skill-Datei-Ansatz (strukturiertes Markdown vs. Vektorsuche), besseren Wegen zum Testen von Enthaltung (als schwierigste Dimension identifiziert) und Informationen über andere, die sitzungsübergreifendes Gedächtnis in Agenten benchmarken (nicht nur Langzeitkontext).
📖 Read the full source: r/ClaudeAI
👀 Siehe auch

Lore: MCP-Server, der KI-Agenten-Sitzungsverlauf zwischen Tools teilt
Lore ist ein MCP-Server, der KI-Agentensitzungen in einem lokalen SQLite-Speicher indiziert und jedem Agenten – unabhängig vom Tool – den Zugriff auf die Sitzungshistorie eines anderen ermöglicht. Neue Clientsitzungen ohne gemeinsamen Kontext, aber Agenten können auf Anfrage vergangene Gespräche abrufen.

Career-Ops Fork fügt LinkedIn-Job-Entdeckung mit Apify hinzu
Ein Entwickler hat das career-ops Claude Code-System geforkt und LinkedIn-Jobsuche mit Apify hinzugefügt, um die Hauptbeschränkung des ursprünglichen Projekts zu beheben, das nur vorkonfigurierte Karriereseiten von Unternehmen durchsuchte.

Clooks: Eine persistente Hook-Laufzeitumgebung für Claude Code
Clooks ist ein persistenter HTTP-Daemon, der die Claude Code Hook-Verteilung ohne Prozess-Erzeugung handhabt und die Latenz von ~34,6 ms auf ~0,31 ms pro Aufruf reduziert. Er umfasst automatische Migration, LLM-Handler mit Prompt-Vorlagen, Abhängigkeitsauflösung und Plugin-Paketierung.

Claude Code AFK Agent: Führen Sie Discord-gestützte autonome Arbeiter über das Teams-Plugin aus
Verwenden Sie das offizielle Channels-Plugin und den Teams-Agent mit der Umgebungsvariablen CLAUDE_CODE_EXPERIMENTAL_AGENT_TEAMS=1, um einzelne Worker von Discord aus zu starten. Enthält eine vollständige CLAUDE.md für einen Lead-Agenten, der Aufgaben verteilt, nie selbst arbeitet und stille Worker nach 60 Minuten zwangsweise beendet.