Бенчмарк MemAware показывает, что память агентов на основе RAG не справляется с неявным извлечением контекста.

✍️ OpenClawRadar📅 Опубликовано: 27 марта 2026 г.🔗 Source

Бенчмарк MemAware заполняет пробел в существующем тестировании памяти агентов, оценивая, могут ли ИИ-агенты извлекать релевантный прошлый контекст, когда пользователи явно об этом не спрашивают. Большинство современных систем памяти агентов следуют простой схеме: пользователь задаёт вопрос → агент ищет в памяти → извлекает результаты → отвечает. Это хорошо работает для явных запросов, таких как "какое решение было принято по базе данных?", но терпит неудачу, когда контекст подразумевается.

Что тестирует MemAware

Бенчмарк включает 900 вопросов трёх уровней сложности, проверяющих извлечение неявного контекста:

Лёгкий: Вопросы с пересечением ключевых слов (например, "На какое время поставить будильник к встречи в 8:30?" должно вызвать воспоминание о 45-минутной поездке)
Средний: Вопросы в одной предметной области
Сложный: Междисциплинарные вопросы без связи по ключевым словам (например, "Ford Mustang нуждается в воздушном фильтре, где я могу использовать свои скидки по программе лояльности?" должно вызвать воспоминание, что пользователь покупает в Target)

Результаты бенчмарка

Тестирование с локальным BM25 + векторным поиском выявило значительные ограничения:

Лёгкий уровень: точность 6,0%
Средний уровень: точность 3,7%
Сложный уровень: точность 0,7% — практически то же самое, что и полное отсутствие памяти (0,8%)

Сложный уровень представляет нерешённые проблемы, когда поисковые запросы не связывают концепции из разных областей. Автор бенчмарка предполагает, что эффективные решения могут потребовать "какого-то предварительно загруженного обзора всей истории пользователя, а не извлечения для каждого запроса".

Практические последствия

Это подчёркивает фундаментальное ограничение современных систем памяти агентов на основе RAG. Когда пользователи не используют правильные ключевые слова или когда связи охватывают разные области, стандартные подходы к поиску не могут извлечь релевантный контекст. Набор данных и тестовый фреймворк имеют открытый исходный код по лицензии MIT, что позволяет разработчикам тестировать свои собственные системы памяти.

📖 Read the full source: r/LocalLLaMA

👀 Смотрите также

Инструменты

CostHawk запускает публичную таблицу лидеров по потреблению токенов для Claude Code, Codex и Cursor

Лидерборд CostHawk ранжирует публичных пользователей Claude Code, OpenAI Codex и Cursor по общему потреблению токенов, отслеживая количество, модели и временные метки синхронизации, не сохраняя промпты или код.

15 мая 2026 г., 22:18 UTC

OpenClawRadar

Инструменты

Автоматизированная локализация .xcstrings с помощью Claude Code

Новое умение Claude Code автоматизирует локализацию файлов Xcode .xcstrings, используя пять этапов: сканирование домена, генерация комментариев, перевод с учётом CLDR-множественных чисел, проверка грамматики и преобразование множественных чисел.

3 мая 2026 г., 00:18 UTC

OpenClawRadar

Инструменты

Приложение Claude Desktop добавляет функцию проектов в интерфейс совместной работы.

В настольном приложении Claude теперь доступна функция «Проекты» в интерфейсе Cowork, позволяющая пользователям организовывать задачи и контекст в выделенных рабочих пространствах. Файлы и инструкции остаются на локальном компьютере пользователя, с возможностью импортировать существующие проекты или создавать новые.

20 мар. 2026 г., 23:45 UTC

OpenClawRadar

Инструменты

Сервер MCP для Blender с более чем 100 инструментами, созданный с использованием Claude Code

Разработчик создал MCP-сервер для Blender с более чем 100 инструментами в 14 категориях, позволяя AI-агентам для написания кода управлять освещением, анимацией, рендерингом и геометрическими нодами Blender с помощью естественно-языковых запросов. Весь код был написан с использованием Claude Code, который помог решить архитектурные проблемы, такие как требование Blender к вызовам API в основном потоке.

8 мар. 2026 г., 17:45 UTC

OpenClawRadar