MemAwareベンチマーク：AI記憶力を900問でテスト、BM25検索2.8%

MemAwareは、記憶機能を持つAIアシスタントが、現在のクエリに明示的なヒントがない場合に、過去の会話から適切なコンテキストを想起できるかをテストするために設計されたオープンソースのベンチマークです。

ベンチマークの仕組み

このベンチマークには、3つの難易度レベルにわたる900の質問が含まれています。関連するコンテキストが記憶に存在するものの、現在の質問には検索マッチを引き起こすキーワードが含まれていないシナリオをテストします。例：数か月前にAIアシスタントに45分間の通勤時間について話した後、後で「午前8時30分の会議のためにアラームを何時に設定すべきですか？」と尋ねます。アシスタントは通勤時間を考慮すべきですが、「アラーム 8:30 会議」を検索しても、通勤に関する会話は見つかりません。

主な発見

検索はほとんど役に立たない： BM25検索は2.8％を記録し、記憶なしの0.8％と比較してわずかな改善ですが、トークンコストは5倍です。
ベクトル検索は難しい質問で失敗する： キーワードが重なる場合には役立ちます（6％）が、ドメイン間の関連性では0.7％に低下します—記憶なしと同じです。難しい質問の例：「チャリティーオークションでどのように入札すべきですか？」は、過去の800ドルのハンドバッグ購入を支出の基準として思い出すべきですが、埋め込み類似性ではこれらの概念を関連付けることができません。
検索すべきでないときに検索するのはコストがかかる： 「常に検索」パターンは、結果が役に立つかどうかに関係なく、質問ごとに約4.7Kトークンの結果を読み取ります。ほとんどの場合、結果は無関係なノイズです。