MemAware-Benchmark testet KI-Gedächtnis über die Stichwortsuche hinaus

MemAware ist ein Open-Source-Benchmark, der testen soll, ob KI-Assistenten mit Gedächtnis relevante Kontexte aus früheren Gesprächen abrufen können, wenn aktuelle Anfragen diese Informationen nicht explizit andeuten.
Wie der Benchmark funktioniert
Der Benchmark enthält 900 Fragen über drei Schwierigkeitsgrade. Er testet Szenarien, in denen relevante Kontexte im Gedächtnis existieren, die aktuelle Frage jedoch keine Schlüsselwörter enthält, die eine Suchtreffer auslösen würden. Beispiel: Sie erzählten Ihrem KI-Assistenten vor Monaten von Ihrer 45-minütigen Pendelstrecke und fragen später: „Auf welche Uhrzeit soll ich meinen Wecker für mein Meeting um 8:30 Uhr stellen?“ Der Assistent sollte Ihre Pendelzeit berücksichtigen, aber die Suche nach „Wecker 8:30 Meeting“ findet keine Gespräche über Pendeln.
Wichtige Erkenntnisse
- Suche hilft kaum: BM25-Suche erzielte 2,8 % gegenüber 0,8 % ohne Gedächtnis – eine winzige Verbesserung, die das Fünffache an Tokens kostet.
- Vektorsuche scheitert bei schwierigen Fragen: Sie hilft bei überlappenden Schlüsselwörtern (6 %), sinkt aber bei domänenübergreifenden Verbindungen auf 0,7 % – genauso wie ohne Gedächtnis. Beispiel für eine schwierige Frage: „Wie sollte ich bei der Wohltätigkeitsauktion bieten?“ sollte einen früheren Kauf einer Handtasche für 800 $ als Ausgabenbasis abrufen, aber Ähnlichkeit in Embeddings kann diese Konzepte nicht verbinden.
- Suche, wenn man nicht sollte, ist teuer: Das Muster „immer suchen“ liest etwa 4,7 Tausend Tokens an Ergebnissen pro Frage, unabhängig davon, ob sie helfen. Meistens sind die Ergebnisse irrelevantes Rauschen.
Das Kernproblem
Aktuelle KI-Gedächtnisimplementierungen sind im Wesentlichen nur Suchsysteme. Echte Gedächtnisbewusstheit – zu wissen, welche Informationen gespeichert sind und relevante Kontexte proaktiv abzurufen – ist ein anderes Problem, das Suche allein nicht lösen kann.
Der Benchmark ist zum Testen verschiedener Ansätze verfügbar unter: https://github.com/kevin-hs-sohn/memaware
📖 Read the full source: r/ClaudeAI
👀 Siehe auch

CLAUDE.md: Drop-in-Datei reduziert Claude-Ausgabetokens um 63%
CLAUDE.md ist eine einzelne Datei, die die Ausführlichkeit der Claude-Ausgaben um etwa 63 % reduziert, ohne Codeänderungen. Sie zielt auf Schmeichelei, Weitschweifigkeit und Formatierungsrauschen in Claudes Antworten ab.

Wisepanel MCP Server ermöglicht Multi-LLM-Deliberation in Claude Code und Cursor
Wisepanel hat einen MCP-Server veröffentlicht, der Multi-Agent-Deliberationen direkt aus Claude Code, Cursor oder jedem MCP-Client ausführt und dabei ein divergentes Kontexterweiterungssystem mit ChatGPT-, Claude-, Gemini- und Perplexity-Modellen nutzt.

ARP: Zustandsloses WebSocket-Relay für die Kommunikation autonomer Agenten
ARP (Agent Relay Protocol) ist ein zustandsloser WebSocket-Relay für die Kommunikation autonomer Agenten mit Ed25519-Identität, HPKE-Verschlüsselung gemäß RFC 9180, binärer TLV-Rahmenung und 33 Bytes Overhead pro Nachricht. Keine Konten oder Registrierung erforderlich – einfach ein Schlüsselpaar generieren und verbinden.

Agent-Xray: Open-Source-Tool zum Debuggen von KI-Agent-Fehlern aus Trace-Logs
Agent-Xray ist ein unter MIT-Lizenz stehendes Open-Source-Tool, das AI-Agenten-Trace-Protokolle analysiert, um Fehler in Kategorien wie Spin, Tool-Bug und Early-Abort zu klassifizieren, und enthält einen Enforcement-Modus, um Korrekturen gegen adversarische Herausforderungen zu testen.