Agentmemory V4: 96,2% на LongMemEval, обгоняя PwC и Mastra

agentmemory V4 — это система памяти с открытым исходным кодом для ИИ-агентов, которая только что установила мировой рекорд, набрав 96,2% на LongMemEval, стандартном тесте для долговременной памяти ИИ-агентов.

Результаты тестирования

Система превзошла несколько финансируемых компаний в области памяти ИИ:

PwC Chronos: 95,6%
Mastra: 94,87%
OMEGA: 93,2% (сырой результат)
Supermemory: 85,86%
Emergence AI: 86%
Zep: 71,2%

Детали разработки

Создана в одиночку за 16 дней на среднебюджетном игровом ПК (i3-12100F) с общей стоимостью $1000. Система использует Claude Opus в качестве генератора и GPT-4o в качестве судьи, но основным нововведением является архитектура поиска.

Техническая архитектура

Система объединяет несколько методов поиска в единой системе на основе SQLite:

HNSW (Иерархический навигируемый малый мир) для приближённого поиска ближайших соседей
BM25 для традиционного текстового поиска
Кросс-энкодер для оценки релевантности
Интеграция графа знаний
Временная привязка для поиска памяти с учётом времени

Доступность

Система имеет открытый исходный код под лицензией MIT и доступна по адресу: github.com/JordanMcCann/agentmemory

📖 Read the full source: r/LocalLLaMA

Агентная память V4 достигает 96,2% на бенчмарке LongMemEval, превосходя коммерческие системы памяти искусственного интеллекта.

Результаты тестирования

Детали разработки

Техническая архитектура

Доступность

👀 Смотрите также

Разработчик создаёт открытый ИИ-инструмент для проверки стартап-идей и «убивает» собственную идею за 10 минут.

Бескодовое постоянное хранилище памяти для Claude с использованием Notion и MCP

cxt: инструмент CLI/TUI для объединения файлов кода в один блок буфера обмена для Claude

Mouser: Открытая альтернатива Logitech Options+ для MX Master 3S