Система автоматической памяти с открытым исходным кодом для агентов LLM достигает точности воспроизведения 94%.

Разработчик открыл исходный код автоматической системы памяти для агентов на основе LLM, которая автоматически извлекает, классифицирует и сохраняет факты между сессиями без необходимости явных команд "сохрани это". Весь проект — включая код плагина, дизайн бенчмарка и тестовую обвязку — был создан с использованием Claude Code в качестве основного инструмента разработки.
Как работает система памяти
Система работает на двух уровнях:
- Уровень 1 (на каждый ход): Легковесная LLM суммирует каждый ход в реальном времени и записывает в промежуточный файл
- Уровень 2 (граница сессии): Асинхронная классификация в четыре файла навыков: идентичность, знания, уроки и предпочтения
Извлечение работает за счёт загрузки агентом соответствующих файлов навыков на основе сопоставления ключевых слов в описаниях. Подход использует структурированные файлы markdown, которые агент читает как "навыки", а не векторные базы данных или RAG-конвейеры.
Разработка с Claude Code
Claude Code помог в нескольких аспектах проекта:
- Дизайн архитектуры: Помог оценить LongMemEval как кандидата для бенчмарка, выявил несоответствие парадигм (длинноконтекстное извлечение против прогрессивной памяти) и предложил адаптированный бенчмарк из 6 типов вопросов
- Создание бенчмарка: Разработал полный тестовый набор из 20 сессий/48 фактов, включая таблицу внедрения фактов, цепочки обновлений (A→B→C), интерференционные пары, вопросы воздержания и размещение двухшаговых триггеров
- Тестовая обвязка: Построил весь фреймворк автотестирования, включая последовательный исполнитель, многократный опрос, управление жизненным циклом, оценщик правил и конвейер судьи LLM
- Отладка в цикле: Диагностировал проблемы в реальном времени во время тестовых прогонов, например, блокировку перезапуска Агента всплывающим окном обновления, что было исправлено установкой файла состояния обновления в режим только для чтения
Результаты бенчмарка
Бенчмарк из 20 сессий был вдохновлён LongMemEval и тестировал 48 внедрённых фактов по 6 типам вопросов:
- Глубокое вспоминание: Факты из сессий 1-2, протестированные через 15+ сессий — 89%
- Обновление знаний: 3-уровневая цепочка исправлений (A→B→C) — 100%
- Межсессионное рассуждение: Комбинирование фактов из 3+ сессий — 100%
- Устойчивость к интерференции: Похожие имена, которые не должны путаться — 100%
- Временное рассуждение: Вопросы на порядок "Что было первым?" — 80%
- Воздержание: "Я не знаю" для никогда не упомянутых фактов — 86%
Итог: 49/52 контрольных точек пройдено (94,2%). Единственный серьёзный провал произошёл, когда агент вывел "вы занимались маркетингом в соцсетях" из смутно связанного факта ("промо-работа"), тогда как правильным ответом было "никогда не обсуждалось" — классическая проблема чрезмерного вывода LLM.
Доступность и вопросы
Проект имеет открытый исходный код, код и бенчмарк доступны на GitHub. Разработчик ищет отзывы о подходе с файлами навыков (структурированный markdown против векторного поиска), лучшие способы тестирования воздержания (определено как самая сложная область) и информацию о других, кто тестирует межсессионную память в агентах (не только длинный контекст).
📖 Read the full source: r/ClaudeAI
👀 Смотрите также

Галерея архитектур LLM: Визуальный справочник по проектам моделей
Галерея архитектур LLM Себастьяна Рашки собирает схемы архитектур и технические характеристики из The Big LLM Architecture Comparison и A Dream of Spring for Open-Weight LLMs, с подробными спецификациями для моделей, таких как Llama 3 8B, DeepSeek V3 и Gemma 3 27B.

Пять плагинов OpenClaw, решающих ключевые проблемы производства.
Пользователь Reddit выделил пять плагинов OpenClaw, решающих распространённые проблемы в продакшене: Manifest для маршрутизации моделей, Composio для управления интеграциями, Hyperspell для памяти, Foundry для автоматизации рабочих процессов и Opik для трассировки.

ClawPy: Минимальная однодокументная реализация OpenClaw на Python с памятью опыта
Разработчик создал ClawPy — упрощённый скрипт на Python, который реализует механику автономного выполнения задач OpenClaw с системой постоянного опыта, обучающейся на прошлых ошибках и успехах.

Агенты наблюдают: Панель мониторинга в реальном времени для команд агентов Claude Code
Agents Observe — это локальная панель мониторинга, которая обеспечивает наблюдение в реальном времени за сессиями агента Claude Code с использованием хуков вместо OTEL. Она фиксирует каждый вызов инструмента, иерархию агентов и события с возможностями фильтрации и поиска, работая как контейнер Docker, который автоматически запускается вместе с сессиями Claude.