Тесты MemAware Benchmark проверяют память ИИ за пределами поиска по ключевым словам.

✍️ OpenClawRadar📅 Опубликовано: 27 марта 2026 г.🔗 Source
Тесты MemAware Benchmark проверяют память ИИ за пределами поиска по ключевым словам.
Ad

MemAware — это открытый бенчмарк, созданный для проверки того, могут ли ИИ-ассистенты с памятью извлекать релевантный контекст из прошлых разговоров, когда текущие запросы явно не содержат намёков на эту информацию.

Как работает бенчмарк

Бенчмарк содержит 900 вопросов по трём уровням сложности. Он тестирует сценарии, где релевантный контекст существует в памяти, но текущий вопрос не содержит ключевых слов, которые могли бы запустить поисковое совпадение. Например: вы рассказали своему ИИ-ассистенту о своей 45-минутной поездке на работу несколько месяцев назад, а позже спрашиваете: «На какое время мне поставить будильник для встречи в 8:30 утра?» Ассистент должен учесть вашу поездку, но поиск по «будильник 8:30 встреча» не найдёт разговоров о поездках на работу.

Ad

Ключевые выводы

  • Поиск почти не помогает: BM25-поиск набрал 2,8% против 0,8% без памяти — крошечное улучшение, которое обходится в 5 раз больше токенов.
  • Векторный поиск проваливается на сложных вопросах: Он помогает, когда ключевые слова пересекаются (6%), но падает до 0,7% на кросс-доменных связях — так же, как и без памяти. Пример сложного вопроса: «Как мне делать ставки на благотворительном аукционе?» должен вспомнить прошлую покупку сумки за $800 как базовый уровень трат, но сходство эмбеддингов не может связать эти концепции.
  • Поиск, когда не нужно, — дорого: Паттерн «всегда искать» читает ~4,7 тыс. токенов результатов на вопрос независимо от того, помогают они или нет. В большинстве случаев результаты — это нерелевантный шум.

Основная проблема

Текущие реализации памяти ИИ по сути являются просто поисковыми системами. Истинная осведомлённость памяти — знание того, какая информация хранится, и активное извлечение релевантного контекста — это другая проблема, которую один только поиск решить не может.

Бенчмарк доступен для тестирования различных подходов по адресу: https://github.com/kevin-hs-sohn/memaware

📖 Read the full source: r/ClaudeAI

Ad

👀 Смотрите также

SubQ: Субквадратичная языковая модель с контекстным окном в 12 миллионов токенов
Инструменты

SubQ: Субквадратичная языковая модель с контекстным окном в 12 миллионов токенов

SubQ — это полностью субквадратичная разреженная LLM, обеспечивающая окно контекста в 12 млн токенов при скорости 150 токенов/с, с показателями SWE-Bench Verified 81.8% и RULER @ 128K 95.0%. Она уменьшает вычислительные затраты на внимание примерно в 1000 раз по сравнению с трансформерами.

OpenClawRadar
Hollow AgentOS сокращает использование токенов кода Claude на 68,5% благодаря подходу JSON-Native OS.
Инструменты

Hollow AgentOS сокращает использование токенов кода Claude на 68,5% благодаря подходу JSON-Native OS.

Hollow AgentOS, JSON-ориентированный уровень операционной системы для ИИ-агентов, снижает использование токенов Claude Code на 68,5%, устраняя избыточные накладные расходы на shell-команды. Инструмент подключается к Claude Code через MCP и выполняет локальный вывод через Ollama.

OpenClawRadar
Torrix: Наблюдаемость LLM с самостоятельным хостингом без Postgres или Redis
Инструменты

Torrix: Наблюдаемость LLM с самостоятельным хостингом без Postgres или Redis

Torrix — это инструмент observability для LLM, работающий как один Docker-контейнер с SQLite. Установка через docker compose up; логирование вызовов LLM через HTTP-прокси или SDK: токены, стоимость, задержка, полные трассировки, маскировка PII, прогнозирование затрат.

OpenClawRadar
OpenClaw 2026.3.23 добавляет поддержку провайдера DeepSeek, модель оплаты по факту использования для Qwen и улучшения для Chrome MCP.
Инструменты

OpenClaw 2026.3.23 добавляет поддержку провайдера DeepSeek, модель оплаты по факту использования для Qwen и улучшения для Chrome MCP.

OpenClaw v2026.3.23 представляет плагин провайдера DeepSeek, почасовую оплату Qwen, автоматическое ценообразование OpenRouter с порядком мышления Anthropic, ожидание вкладок Chrome MCP, а также исправления для Discord/Slack/Matrix и веб-интерфейса.

OpenClawRadar