Бенчмарк MemAware показывает, что память агентов на основе RAG не справляется с неявным извлечением контекста.

✍️ OpenClawRadar📅 Опубликовано: 27 марта 2026 г.🔗 Source
Бенчмарк MemAware показывает, что память агентов на основе RAG не справляется с неявным извлечением контекста.
Ad

Бенчмарк MemAware заполняет пробел в существующем тестировании памяти агентов, оценивая, могут ли ИИ-агенты извлекать релевантный прошлый контекст, когда пользователи явно об этом не спрашивают. Большинство современных систем памяти агентов следуют простой схеме: пользователь задаёт вопрос → агент ищет в памяти → извлекает результаты → отвечает. Это хорошо работает для явных запросов, таких как "какое решение было принято по базе данных?", но терпит неудачу, когда контекст подразумевается.

Что тестирует MemAware

Бенчмарк включает 900 вопросов трёх уровней сложности, проверяющих извлечение неявного контекста:

  • Лёгкий: Вопросы с пересечением ключевых слов (например, "На какое время поставить будильник к встречи в 8:30?" должно вызвать воспоминание о 45-минутной поездке)
  • Средний: Вопросы в одной предметной области
  • Сложный: Междисциплинарные вопросы без связи по ключевым словам (например, "Ford Mustang нуждается в воздушном фильтре, где я могу использовать свои скидки по программе лояльности?" должно вызвать воспоминание, что пользователь покупает в Target)
Ad

Результаты бенчмарка

Тестирование с локальным BM25 + векторным поиском выявило значительные ограничения:

  • Лёгкий уровень: точность 6,0%
  • Средний уровень: точность 3,7%
  • Сложный уровень: точность 0,7% — практически то же самое, что и полное отсутствие памяти (0,8%)

Сложный уровень представляет нерешённые проблемы, когда поисковые запросы не связывают концепции из разных областей. Автор бенчмарка предполагает, что эффективные решения могут потребовать "какого-то предварительно загруженного обзора всей истории пользователя, а не извлечения для каждого запроса".

Практические последствия

Это подчёркивает фундаментальное ограничение современных систем памяти агентов на основе RAG. Когда пользователи не используют правильные ключевые слова или когда связи охватывают разные области, стандартные подходы к поиску не могут извлечь релевантный контекст. Набор данных и тестовый фреймворк имеют открытый исходный код по лицензии MIT, что позволяет разработчикам тестировать свои собственные системы памяти.

📖 Read the full source: r/LocalLLaMA

Ad

👀 Смотрите также

Объяснение режима Claude Cowork: выполнение задач на уровне файлов в сравнении с режимами чата и кода
Инструменты

Объяснение режима Claude Cowork: выполнение задач на уровне файлов в сравнении с режимами чата и кода

Режим Cowork у Claude работает внутри выбранной папки для выполнения задач на уровне файлов, таких как организация беспорядочных папок, извлечение структурированных данных из скриншотов и объединение разрозненных заметок в структурированные документы.

OpenClawRadar
Инструмент Nia-docs создает локальную файловую систему из URL-адресов документации для Claude AI.
Инструменты

Инструмент Nia-docs создает локальную файловую систему из URL-адресов документации для Claude AI.

Инструмент nia-docs позволяет запустить npx nia-docs с URL документации, чтобы создать локальную файловую систему документации, к которой ИИ Claude сможет обращаться напрямую без дополнительной настройки.

OpenClawRadar
Репозиторий шаблонов кода Claude для приложений Spring Boot
Инструменты

Репозиторий шаблонов кода Claude для приложений Spring Boot

Репозиторий GitHub предоставляет шаблон Claude Code для генерации приложений Spring Boot с лучшими практиками интеграции базы данных, развертывания в Kubernetes и интеграционного тестирования с использованием Testcontainers.

OpenClawRadar
OpenClaw .NET: Порт NativeAOT с JSON-RPC Мостом для Существующих Плагинов
Инструменты

OpenClaw .NET: Порт NativeAOT с JSON-RPC Мостом для Существующих Плагинов

OpenClaw .NET — это порт OpenClaw на C#, который компилируется в бинарный файл NativeAOT размером около 23 МБ, исключая время разогрева JIT и накладные расходы среды выполнения Node, сохраняя при этом совместимость с существующими плагинами на TypeScript/JavaScript через встроенный мост JSON-RPC.

OpenClawRadar