Система автоматической памяти с открытым исходным кодом для агентов LLM достигает точности воспроизведения 94%.

✍️ OpenClawRadar📅 Опубликовано: 21 марта 2026 г.🔗 Source

Разработчик открыл исходный код автоматической системы памяти для агентов на основе LLM, которая автоматически извлекает, классифицирует и сохраняет факты между сессиями без необходимости явных команд "сохрани это". Весь проект — включая код плагина, дизайн бенчмарка и тестовую обвязку — был создан с использованием Claude Code в качестве основного инструмента разработки.

Как работает система памяти

Система работает на двух уровнях:

Уровень 1 (на каждый ход): Легковесная LLM суммирует каждый ход в реальном времени и записывает в промежуточный файл
Уровень 2 (граница сессии): Асинхронная классификация в четыре файла навыков: идентичность, знания, уроки и предпочтения

Извлечение работает за счёт загрузки агентом соответствующих файлов навыков на основе сопоставления ключевых слов в описаниях. Подход использует структурированные файлы markdown, которые агент читает как "навыки", а не векторные базы данных или RAG-конвейеры.

Разработка с Claude Code

Claude Code помог в нескольких аспектах проекта:

Дизайн архитектуры: Помог оценить LongMemEval как кандидата для бенчмарка, выявил несоответствие парадигм (длинноконтекстное извлечение против прогрессивной памяти) и предложил адаптированный бенчмарк из 6 типов вопросов
Создание бенчмарка: Разработал полный тестовый набор из 20 сессий/48 фактов, включая таблицу внедрения фактов, цепочки обновлений (A→B→C), интерференционные пары, вопросы воздержания и размещение двухшаговых триггеров
Тестовая обвязка: Построил весь фреймворк автотестирования, включая последовательный исполнитель, многократный опрос, управление жизненным циклом, оценщик правил и конвейер судьи LLM
Отладка в цикле: Диагностировал проблемы в реальном времени во время тестовых прогонов, например, блокировку перезапуска Агента всплывающим окном обновления, что было исправлено установкой файла состояния обновления в режим только для чтения

Результаты бенчмарка

Бенчмарк из 20 сессий был вдохновлён LongMemEval и тестировал 48 внедрённых фактов по 6 типам вопросов:

Глубокое вспоминание: Факты из сессий 1-2, протестированные через 15+ сессий — 89%
Обновление знаний: 3-уровневая цепочка исправлений (A→B→C) — 100%
Межсессионное рассуждение: Комбинирование фактов из 3+ сессий — 100%
Устойчивость к интерференции: Похожие имена, которые не должны путаться — 100%
Временное рассуждение: Вопросы на порядок "Что было первым?" — 80%
Воздержание: "Я не знаю" для никогда не упомянутых фактов — 86%

Итог: 49/52 контрольных точек пройдено (94,2%). Единственный серьёзный провал произошёл, когда агент вывел "вы занимались маркетингом в соцсетях" из смутно связанного факта ("промо-работа"), тогда как правильным ответом было "никогда не обсуждалось" — классическая проблема чрезмерного вывода LLM.

Доступность и вопросы

Проект имеет открытый исходный код, код и бенчмарк доступны на GitHub. Разработчик ищет отзывы о подходе с файлами навыков (структурированный markdown против векторного поиска), лучшие способы тестирования воздержания (определено как самая сложная область) и информацию о других, кто тестирует межсессионную память в агентах (не только длинный контекст).

📖 Read the full source: r/ClaudeAI

👀 Смотрите также

Инструменты

Галерея архитектур LLM: Визуальный справочник по проектам моделей

Галерея архитектур LLM Себастьяна Рашки собирает схемы архитектур и технические характеристики из The Big LLM Architecture Comparison и A Dream of Spring for Open-Weight LLMs, с подробными спецификациями для моделей, таких как Llama 3 8B, DeepSeek V3 и Gemma 3 27B.

16 мар. 2026 г., 09:45 UTC

OpenClawRadar

Инструменты

Пять плагинов OpenClaw, решающих ключевые проблемы производства.

Пользователь Reddit выделил пять плагинов OpenClaw, решающих распространённые проблемы в продакшене: Manifest для маршрутизации моделей, Composio для управления интеграциями, Hyperspell для памяти, Foundry для автоматизации рабочих процессов и Opik для трассировки.

20 мар. 2026 г., 05:45 UTC

OpenClawRadar

Инструменты

ClawPy: Минимальная однодокументная реализация OpenClaw на Python с памятью опыта

Разработчик создал ClawPy — упрощённый скрипт на Python, который реализует механику автономного выполнения задач OpenClaw с системой постоянного опыта, обучающейся на прошлых ошибках и успехах.

12 мар. 2026 г., 02:45 UTC

OpenClawRadar

Инструменты

Агенты наблюдают: Панель мониторинга в реальном времени для команд агентов Claude Code

Agents Observe — это локальная панель мониторинга, которая обеспечивает наблюдение в реальном времени за сессиями агента Claude Code с использованием хуков вместо OTEL. Она фиксирует каждый вызов инструмента, иерархию агентов и события с возможностями фильтрации и поиска, работая как контейнер Docker, который автоматически запускается вместе с сессиями Claude.

3 апр. 2026 г., 03:45 UTC

OpenClawRadar