MemAware-Benchmark: RAG-Agenten versagen bei impliziter Kontextabfrage (2,8% Genauigkeit)

Der MemAware-Benchmark schließt eine Lücke in bestehenden Tests für Agentengedächtnisse, indem er bewertet, ob KI-Agenten relevante frühere Kontexte abrufen können, wenn Nutzer nicht explizit danach fragen. Die meisten aktuellen Agentengedächtnissysteme folgen einem einfachen Muster: Nutzer fragt etwas → Agent durchsucht das Gedächtnis → ruft Ergebnisse ab → antwortet. Dies funktioniert gut für explizite Abfragen wie "Welche Datenbankentscheidung wurde getroffen?", scheitert jedoch, wenn der Kontext implizit ist.

Was MemAware testet

Der Benchmark umfasst 900 Fragen über drei Schwierigkeitsgrade, die das Abrufen impliziter Kontexte testen:

Einfach: Fragen mit Schlüsselwortüberschneidungen (z. B. "Auf welche Uhrzeit sollte ich meinen Wecker für mein 8:30-Meeting stellen?" sollte an eine 45-minütige Pendelzeit erinnern)
Mittel: Fragen innerhalb derselben Domäne
Schwer: Domänenübergreifende Fragen ohne Schlüsselwortverbindungen (z. B. "Ford Mustang benötigt einen Luftfilter, wo kann ich meine Treuerabatte nutzen?" sollte daran erinnern, dass der Nutzer bei Target einkauft)

Benchmark-Ergebnisse

Tests mit lokaler BM25 + Vektorsuche zeigten erhebliche Einschränkungen:

Einfache Stufe: 6,0 % Genauigkeit
Mittlere Stufe: 3,7 % Genauigkeit
Schwere Stufe: 0,7 % Genauigkeit – im Wesentlichen dasselbe wie ohne Gedächtnis (0,8 %)

Die schwere Stufe repräsentiert ungelöste Probleme, bei denen Suchanfragen Konzepte nicht über Domänen hinweg verbinden. Der Benchmark-Autor schlägt vor, dass effektive Lösungen möglicherweise "eine Art vorab geladene Übersicht über die vollständige Nutzerhistorie anstelle einer abfragebasierten Abfrage" erfordern.

Praktische Implikationen

Dies verdeutlicht eine grundlegende Einschränkung aktueller RAG-basierter Agentengedächtnissysteme. Wenn Nutzer nicht die richtigen Schlüsselwörter verwenden oder Verbindungen verschiedene Domänen überspannen, versagen Standard-Suchansätze beim Abrufen relevanter Kontexte. Der Datensatz und das Test-Framework sind unter MIT-Lizenz quelloffen, sodass Entwickler ihre eigenen Gedächtnissysteme testen können.

📖 Read the full source: r/LocalLLaMA

Der MemAware-Benchmark zeigt, dass RAG-basierte Agentenspeicher bei der impliziten Kontextabfrage versagen.

Was MemAware testet

Benchmark-Ergebnisse

Praktische Implikationen

👀 Siehe auch

Chrome-Erweiterung fügt Live-Vorschau zur Claude-Code-Webseite hinzu

Ausführen von NemoClaw mit lokalem vLLM: Setup-Notizen und Beobachtungen zum Agent-Engineering

Mobile Harness: Browser-Use-Fähigkeiten für Claude-Agenten in Mobile Apps integrieren

IM für Agenten: REST-basiertes Chatroom für die Kommunikation zwischen KI-Agenten ohne SDKs