MemAware-Benchmark: 900 Fragen testen KI-Gedächtnis jenseits der Stichwortsuche

MemAware ist ein Open-Source-Benchmark, der testen soll, ob KI-Assistenten mit Gedächtnis relevante Kontexte aus früheren Gesprächen abrufen können, wenn aktuelle Anfragen diese Informationen nicht explizit andeuten.

Wie der Benchmark funktioniert

Der Benchmark enthält 900 Fragen über drei Schwierigkeitsgrade. Er testet Szenarien, in denen relevante Kontexte im Gedächtnis existieren, die aktuelle Frage jedoch keine Schlüsselwörter enthält, die eine Suchtreffer auslösen würden. Beispiel: Sie erzählten Ihrem KI-Assistenten vor Monaten von Ihrer 45-minütigen Pendelstrecke und fragen später: „Auf welche Uhrzeit soll ich meinen Wecker für mein Meeting um 8:30 Uhr stellen?“ Der Assistent sollte Ihre Pendelzeit berücksichtigen, aber die Suche nach „Wecker 8:30 Meeting“ findet keine Gespräche über Pendeln.

Wichtige Erkenntnisse

Suche hilft kaum: BM25-Suche erzielte 2,8 % gegenüber 0,8 % ohne Gedächtnis – eine winzige Verbesserung, die das Fünffache an Tokens kostet.
Vektorsuche scheitert bei schwierigen Fragen: Sie hilft bei überlappenden Schlüsselwörtern (6 %), sinkt aber bei domänenübergreifenden Verbindungen auf 0,7 % – genauso wie ohne Gedächtnis. Beispiel für eine schwierige Frage: „Wie sollte ich bei der Wohltätigkeitsauktion bieten?“ sollte einen früheren Kauf einer Handtasche für 800 $ als Ausgabenbasis abrufen, aber Ähnlichkeit in Embeddings kann diese Konzepte nicht verbinden.
Suche, wenn man nicht sollte, ist teuer: Das Muster „immer suchen“ liest etwa 4,7 Tausend Tokens an Ergebnissen pro Frage, unabhängig davon, ob sie helfen. Meistens sind die Ergebnisse irrelevantes Rauschen.

Das Kernproblem

Aktuelle KI-Gedächtnisimplementierungen sind im Wesentlichen nur Suchsysteme. Echte Gedächtnisbewusstheit – zu wissen, welche Informationen gespeichert sind und relevante Kontexte proaktiv abzurufen – ist ein anderes Problem, das Suche allein nicht lösen kann.

Der Benchmark ist zum Testen verschiedener Ansätze verfügbar unter: https://github.com/kevin-hs-sohn/memaware

📖 Read the full source: r/ClaudeAI

MemAware-Benchmark testet KI-Gedächtnis über die Stichwortsuche hinaus

Wie der Benchmark funktioniert

Wichtige Erkenntnisse

Das Kernproblem

👀 Siehe auch

Claudetop: Echtzeit-Kostenüberwachung für Claude-Code-Sitzungen

Agent Safehouse: macOS-native Sandboxing für lokale KI-Codierungsagenten

Zikra: Selbst gehosteter MCP-Speicherserver für Claude Code, Cursor und Codex

Open-Source-MCP-Suite verbessert die Code-Generierungsqualität von Claude um 15-20 %.