MemAware Benchmark: 900 вопросов для теста памяти ИИ

MemAware — это открытый бенчмарк, созданный для проверки того, могут ли ИИ-ассистенты с памятью извлекать релевантный контекст из прошлых разговоров, когда текущие запросы явно не содержат намёков на эту информацию.

Как работает бенчмарк

Бенчмарк содержит 900 вопросов по трём уровням сложности. Он тестирует сценарии, где релевантный контекст существует в памяти, но текущий вопрос не содержит ключевых слов, которые могли бы запустить поисковое совпадение. Например: вы рассказали своему ИИ-ассистенту о своей 45-минутной поездке на работу несколько месяцев назад, а позже спрашиваете: «На какое время мне поставить будильник для встречи в 8:30 утра?» Ассистент должен учесть вашу поездку, но поиск по «будильник 8:30 встреча» не найдёт разговоров о поездках на работу.

Ключевые выводы

Поиск почти не помогает: BM25-поиск набрал 2,8% против 0,8% без памяти — крошечное улучшение, которое обходится в 5 раз больше токенов.
Векторный поиск проваливается на сложных вопросах: Он помогает, когда ключевые слова пересекаются (6%), но падает до 0,7% на кросс-доменных связях — так же, как и без памяти. Пример сложного вопроса: «Как мне делать ставки на благотворительном аукционе?» должен вспомнить прошлую покупку сумки за $800 как базовый уровень трат, но сходство эмбеддингов не может связать эти концепции.
Поиск, когда не нужно, — дорого: Паттерн «всегда искать» читает ~4,7 тыс. токенов результатов на вопрос независимо от того, помогают они или нет. В большинстве случаев результаты — это нерелевантный шум.

Основная проблема

Текущие реализации памяти ИИ по сути являются просто поисковыми системами. Истинная осведомлённость памяти — знание того, какая информация хранится, и активное извлечение релевантного контекста — это другая проблема, которую один только поиск решить не может.

Бенчмарк доступен для тестирования различных подходов по адресу: https://github.com/kevin-hs-sohn/memaware

📖 Read the full source: r/ClaudeAI

Тесты MemAware Benchmark проверяют память ИИ за пределами поиска по ключевым словам.

Как работает бенчмарк

Ключевые выводы

Основная проблема

👀 Смотрите также

IronBee: Открытый слой верификации для Claude Code и Cursor

Примечание: Markdown-инструмент для аннотирования в рабочих процессах работы с кодом Claude

Запуск Qwen3.6-35B-A3B-UD-Q5_K_XL локально с VS Code Copilot на AMD R9700

Берега: Контейнеризованные хосты для запуска нескольких локальных сред