MemAware 벤치마크: AI 기억력 테스트, BM25 vs 벡터 검색 결과

MemAware는 메모리가 있는 AI 어시스턴트가 현재 쿼리가 해당 정보를 명시적으로 암시하지 않을 때 과거 대화에서 관련 컨텍스트를 표면화할 수 있는지 테스트하기 위해 설계된 오픈소스 벤치마크입니다.

벤치마크 작동 방식

이 벤치마크는 세 가지 난이도에 걸쳐 900개의 질문을 포함합니다. 관련 컨텍스트가 메모리에 존재하지만 현재 질문에 검색 일치를 유발할 키워드가 포함되지 않은 시나리오를 테스트합니다. 예를 들어: 몇 달 전에 AI 어시스턴트에게 45분 통근 시간에 대해 말했고, 나중에 "오전 8시 30분 회의를 위해 알람을 몇 시로 설정해야 하나요?"라고 묻습니다. 어시스턴트는 통근 시간을 고려해야 하지만, "알람 8:30 회의"를 검색하면 통근에 대한 대화를 찾을 수 없습니다.

주요 발견 사항

검색은 거의 도움이 되지 않음: BM25 검색은 메모리 없음 대비 2.8% vs 0.8%로 점수를 기록했으며, 이는 토큰을 5배 더 소모하는 미미한 개선입니다.
벡터 검색은 어려운 질문에서 실패함: 키워드가 겹칠 때는 도움이 되지만(6%), 도메인 간 연결에서는 0.7%로 떨어집니다 — 메모리가 없는 경우와 동일합니다. 어려운 질문 예시: "자선 경매에서 어떻게 입찰해야 하나요?"는 과거 $800 핸드백 구매를 지출 기준으로 상기시켜야 하지만, 임베딩 유사성은 이러한 개념을 연결할 수 없습니다.
검색하지 말아야 할 때 검색하는 것은 비용이 많이 듦: "항상 검색" 패턴은 결과가 도움이 되는지 여부와 관계없이 질문당 약 4.7K 토큰의 결과를 읽습니다. 대부분의 경우 결과는 관련 없는 노이즈입니다.