Open-Source-Auto-Memory-System für LLM-Agenten erreicht 94 % Erinnerungsgenauigkeit

✍️ OpenClawRadar📅 Veröffentlicht: 21. März 2026🔗 Source
Open-Source-Auto-Memory-System für LLM-Agenten erreicht 94 % Erinnerungsgenauigkeit
Ad

Ein Entwickler hat ein automatisches Speichersystem für LLM-basierte Agenten als Open-Source veröffentlicht, das automatisch Fakten über Sitzungen hinweg extrahiert, klassifiziert und speichert, ohne explizite "speichere dies"-Befehle zu benötigen. Das gesamte Projekt – einschließlich Plugin-Code, Benchmark-Design und Testumgebung – wurde mit Claude Code als primärem Entwicklungswerkzeug erstellt.

Wie das Speichersystem funktioniert

Das System arbeitet mit zwei Ebenen:

  • Ebene 1 (pro Runde): Ein leichtgewichtiges LLM fasst jede Runde in Echtzeit zusammen und schreibt in eine Staging-Datei
  • Ebene 2 (Sitzungsgrenze): Asynchrone Klassifizierung in vier Skill-Dateien: Identität, Wissen, Lektionen und Präferenzen

Der Abruf funktioniert, indem der Agent relevante Skill-Dateien basierend auf Schlüsselwortübereinstimmungen in Beschreibungen lädt. Der Ansatz verwendet strukturierte Markdown-Dateien, die der Agent als "Fähigkeiten" liest, anstatt Vektordatenbanken oder RAG-Pipelines.

Entwicklung mit Claude Code

Claude Code unterstützte mehrere Aspekte des Projekts:

  • Architekturdesign: Half bei der Bewertung von LongMemEval als Benchmark-Kandidat, identifizierte das Paradigmen-Missverhältnis (Langzeitkontext-Abruf vs. progressiver Speicher) und schlug einen angepassten 6-Fragentyp-Benchmark vor
  • Benchmark-Erstellung: Entwarf den vollständigen 20-Sitzungen/48-Fakten-Testsatz einschließlich Fakten-Einpflanzungstabelle, Aktualisierungsketten (A→B→C), Interferenzpaare, Enthaltungsfragen und Platzierung von Zwei-Sprung-Auslösern
  • Testumgebung: Erbaute das gesamte Autotest-Framework einschließlich seriellem Ausführer, Mehrfachrunden-Abfrage, Lebenszyklusverwaltung, Regelauswerter und LLM-Richter-Pipeline
  • Debugging im Loop: Diagnostizierte Probleme live während Testläufen, wie etwa ein Update-Popup, das Agent-Neustarts blockierte, was durch Sperren der Updater-Statusdatei auf schreibgeschützt behoben wurde
Ad

Benchmark-Ergebnisse

Der 20-Sitzungen-Benchmark war von LongMemEval inspiriert und testete 48 eingepflanzte Fakten über 6 Fragentypen:

  • Tiefenrückruf: Fakten aus Sitzungen 1-2, 15+ Sitzungen später getestet - 89 %
  • Wissensaktualisierung: 3-stufige Korrekturkette (A→B→C) - 100 %
  • Sitzungsübergreifendes Schlussfolgern: Kombiniere Fakten aus 3+ Sitzungen - 100 %
  • Interferenzresistenz: Ähnliche Namen, die nicht verwechselt werden sollten - 100 %
  • Zeitliches Schlussfolgern: "Was kam zuerst?"-Ordnungsfragen - 80 %
  • Enthaltung: "Ich weiß nicht" für nie erwähnte Fakten - 86 %

Gesamt: 49/52 Prüfpunkte bestanden (94,2 %). Der einzige harte Fehler trat auf, als der Agent aus einer vage verwandten Tatsache ("Promotionsarbeit") schloss, dass "Sie Social-Media-Marketing betrieben haben", während die korrekte Antwort "nie besprochen" war – ein klassisches LLM-Überschlussfolgerungsproblem.

Verfügbarkeit und Fragen

Das Projekt ist Open Source mit Code und Benchmark auf GitHub verfügbar. Der Entwickler sucht Feedback zum Skill-Datei-Ansatz (strukturiertes Markdown vs. Vektorsuche), besseren Wegen zum Testen von Enthaltung (als schwierigste Dimension identifiziert) und Informationen über andere, die sitzungsübergreifendes Gedächtnis in Agenten benchmarken (nicht nur Langzeitkontext).

📖 Read the full source: r/ClaudeAI

Ad

👀 Siehe auch

Lore: MCP-Server, der KI-Agenten-Sitzungsverlauf zwischen Tools teilt
Werkzeuge

Lore: MCP-Server, der KI-Agenten-Sitzungsverlauf zwischen Tools teilt

Lore ist ein MCP-Server, der KI-Agentensitzungen in einem lokalen SQLite-Speicher indiziert und jedem Agenten – unabhängig vom Tool – den Zugriff auf die Sitzungshistorie eines anderen ermöglicht. Neue Clientsitzungen ohne gemeinsamen Kontext, aber Agenten können auf Anfrage vergangene Gespräche abrufen.

OpenClawRadar
Career-Ops Fork fügt LinkedIn-Job-Entdeckung mit Apify hinzu
Werkzeuge

Career-Ops Fork fügt LinkedIn-Job-Entdeckung mit Apify hinzu

Ein Entwickler hat das career-ops Claude Code-System geforkt und LinkedIn-Jobsuche mit Apify hinzugefügt, um die Hauptbeschränkung des ursprünglichen Projekts zu beheben, das nur vorkonfigurierte Karriereseiten von Unternehmen durchsuchte.

OpenClawRadar
Clooks: Eine persistente Hook-Laufzeitumgebung für Claude Code
Werkzeuge

Clooks: Eine persistente Hook-Laufzeitumgebung für Claude Code

Clooks ist ein persistenter HTTP-Daemon, der die Claude Code Hook-Verteilung ohne Prozess-Erzeugung handhabt und die Latenz von ~34,6 ms auf ~0,31 ms pro Aufruf reduziert. Er umfasst automatische Migration, LLM-Handler mit Prompt-Vorlagen, Abhängigkeitsauflösung und Plugin-Paketierung.

OpenClawRadar
Claude Code AFK Agent: Führen Sie Discord-gestützte autonome Arbeiter über das Teams-Plugin aus
Werkzeuge

Claude Code AFK Agent: Führen Sie Discord-gestützte autonome Arbeiter über das Teams-Plugin aus

Verwenden Sie das offizielle Channels-Plugin und den Teams-Agent mit der Umgebungsvariablen CLAUDE_CODE_EXPERIMENTAL_AGENT_TEAMS=1, um einzelne Worker von Discord aus zu starten. Enthält eine vollständige CLAUDE.md für einen Lead-Agenten, der Aufgaben verteilt, nie selbst arbeitet und stille Worker nach 60 Minuten zwangsweise beendet.

OpenClawRadar