Локальная система памяти MCP с консолидацией для AI-диалогов

Что это такое
Разработчик создал локальную систему памяти для AI-диалогов, которая консолидирует и синтезирует информацию, а не просто хранит её. Построенная как MCP-сервер, она работает с совместимыми клиентами, такими как Claude Desktop и Claude Code, функционируя на 100% локально без передачи данных за пределы вашего оборудования.
Как это работает
Ключевое отличие от стандартных RAG-систем — процесс консолидации. Каждые 6 часов локальная LLM (Qwen 2.5-7B, работающая в LM Studio) группирует недавние воспоминания по темам и объединяет их в структурированные документы знаний. Она извлекает факты, решения и предпочтения, объединяя их с существующими знаниями и версионируя всё.
Технологический стек
- Эмбеддинги: nomic-embed-text-v1.5 через LM Studio
- Векторный поиск: FAISS (семантический + ключевые слова гибрид)
- LLM для консолидации: Qwen 2.5-7B (Q4) через LM Studio
- Хранилище: SQLite для эпизодов, FAISS для векторов
- Протокол: MCP — работает со всем, что его поддерживает
- Конфигурация: TOML
Возможности
- Семантическое дедуплицирование с порогом косинусного сходства 0.95
- Адаптивная оценка удивления — часто используемые воспоминания усиливаются, устаревшие ослабевают
- Атомарная запись с tempfile + os.replace для защиты от сбоев
- Удаление в FAISS на основе tombstone — O(1) вместо перестроения всего индекса
- Плавная деградация — если LM Studio отключается, хранилище продолжает работать, консолидация приостанавливается
- 88 пройденных тестов
Инструменты MCP
memory_store— сохранить эпизод с типом, тегами, оценкой удивленияmemory_recall— семантический поиск по эпизодам + консолидированным знаниямmemory_forget— пометить эпизод для удаленияmemory_correct— обновить документ знанийmemory_export— полная JSON-резервная копияmemory_status— проверка состояния
Почему выбран MCP
Модели часто заменяются, но накопленные знания не должны исчезать вместе с ними. MCP делает память переносимой — одно хранилище, множество интерфейсов. Слой памяти становится ценнее любой отдельной модели.
Практические результаты
После примерно недели использования система создала документы знаний о компьютерном оборудовании, настройке VR, предпочтениях в программировании и архитектуре проектов — всё синтезировано из обычных диалогов. При начале новых чатов AI уже знает контекст пользователя без повторных объяснений.
Требования
- Python 3.11+
- LM Studio с загруженными Qwen 2.5-7B и nomic-embed-text-v1.5
- Любой MCP-клиент
📖 Read the full source: r/LocalLLaMA
👀 Смотрите также

Перенаправляйте рутинную работу с Claude Code на Gemma через MCP-сервер offload-mcp
offload-mcp — это новый MCP-сервер, который позволяет Claude переносить рутинные задачи, такие как сообщения коммитов и сводки PR, на бесплатные API моделей (по умолчанию Gemma через Google GenAI API), экономя токены Claude и выполняя облегченную работу без ограничений локального оборудования.

Tilde.run: Песочница для агентов с транзакционной версионированной файловой системой
Tilde.run предоставляет изолированные, обратимые песочницы для AI-агентов, с версионируемой файловой системой, которая монтирует GitHub, S3 и Google Drive, и сетевой изоляцией по умолчанию.

Эфемерные конфигурации OpenClaw с сетевым изолированием и автоматическим удалением.
Конфигурация, которая запускает OpenClaw внутри эфемерной виртуальной машины со списком разрешённых сетевых исходящих подключений, инжектирует API-ключи в хранилище на базе оперативной памяти и включает автоматическое удаление через 2 часа. Все вызовы LLM записываются в SQLite для возможного воспроизведения.

Интеграция локальных агентов LLM с ComfyUI для пакетной генерации изображений на естественном языке
Разработчик делится опытом подключения своего локального агента OpenClaw к ComfyUI, что позволяет использовать естественный язык для команд в рабочих процессах пакетной генерации изображений. Интеграция использует пользовательский навык агента, который преобразует английские запросы в JSON рабочего процесса ComfyUI и обрабатывает API-коммуникацию.