Постоянная память для Claude: локальный стек с MCP, 39 мс на поиск, снижение токенов на 82%

Пользователь Reddit создал локальный уровень постоянной памяти для Claude, решающий проблему нулевого контекста между сессиями. Стек полностью локальный (без облака, без ключей API) и интегрируется через MCP. Ключевая архитектура: четыре уровня (L0 — только добавление событий в SQLite, L1 — отложенные факты, L2/L3 — вики-текст, L4 — кристаллизованные узлы сессий с резюме + решения + открытые темы), Qdrant в Docker для векторного поиска, llama.cpp с Qwen3-Embedding-4B на GPU и Qwen3.5-2B-Q4_K_M на CPU для эмбеддинга и чата, а также сервер FastMCP, предоставляющий 7 инструментов (retrieve, crystallize_session, list_sessions, get_l4_node, index_status, reindex, shutdown_models).
Числа
- Сокращение токенов по сравнению с базой grep+Read: среднее 82,7%, медиана 86,2%.
- F1 извлечения: 0,50 против 0,20 базовой.
- Холодный старт эмбеддинга ~4 с; p95 горячего пути 39 мс (было 2241 мс до исправления ошибки).
- Оценка извлечения сессий L4: средний балл 0,920 (порог 0,6).
- 738 чанков проиндексировано в 104 файлах Markdown.
Ключевой урок: повторное использование соединения в Windows
Горячий путь извлечения застревал на p95 2241 мс, даже при эмбеддинге на GPU 4070 Ti Super. Причина: каждый httpx.post() открывал новое TCP-соединение, и рукопожатия localhost в Windows занимали ~2 секунды. Переключение на постоянный httpx.Client с keep-alive снизило p95 до 39 мс — ускорение в 57 раз.
Другие сюрпризы
- Режим размышлений Qwen3: если
enable_thinkingне отключен черезchat_template_kwargs: {enable_thinking: false}с--jinjaна llama-server, модель тратит весь бюджет токенов на блоки размышлений и выводит пустое содержимое. - Регистрация MCP: Агентный режим Claude Desktop (Cowork) читает файл конфигурации плагина, а не
~/.claude.json. Сервис LKS должен быть упакован как правильный пакет .plugin для Cowork.
Для кого это
Для разработчиков, которые активно используют Claude и хотят экономичный, приватный, локальный слой памяти, поддерживающий контекст между сессиями без облачных зависимостей.
📖 Read the full source: r/ClaudeAI
👀 Смотрите также

Claude-Code версии 2.1.63 добавляет HTTP-хуки, слеш-команды и исправляет утечки памяти.
Claude-Code v2.1.63 представляет HTTP-хуки для JSON-вызовов к внешним системам, добавляет слеш-команды /simplify и /batch, а также исправляет несколько утечек памяти в длительных сессиях. В релизе также улучшена обработка MCP-серверов и интеграция с VSCode.

Торговый агент с ИИ и защитными механизмами риска для образовательного инвестирования
Разработчик создал торгового ассистента на основе ИИ, который подключает Claude к брокерскому счёту с механизмом управления рисками между ИИ и деньгами. Система включает проверки безопасности, такие как блокировка сделок, превышающих 50% распределения портфеля, автоматическое отключение при дневной потере в 3% и аварийный выключатель при просадке в 20%.

Сравнение четырех управляемых хостинг-провайдеров OpenClaw на 2026 год
Разработчик протестировал четыре провайдера управляемого хостинга OpenClaw в течение двух месяцев, оценив их по времени настройки, времени безотказной работы, надежности интеграций, маршрутизации моделей, стоимости и обработке многоэтапных задач. LobsterTank стоит $2/месяц с базовым контейнерным хостингом, KiwiClaw — $39/месяц с лучшей поддержкой, xCloud — $24/месяц с хорошим аптаймом, а RunLobster — $49/месяц с обширной интеграцией инструментов и фиксированной ценой.

Флавиан: Фреймворк для разработки на WordPress с 24 специализированными код-агентами Claude
Flavian — это фреймворк с открытым исходным кодом для разработки на WordPress, построенный вокруг Claude Code, включающий 24 специализированных агента для таких задач, как фронтенд-разработка, аудит безопасности и конвертация из Figma в WordPress. Создатель обнаружил, что агенты, специализирующиеся на конкретной области, значительно превосходят универсальные для разработки на WordPress.