Постоянная память для Claude: локальный стек с MCP, 39 мс на поиск, снижение токенов на 82%

✍️ OpenClawRadar📅 Опубликовано: 8 мая 2026 г.🔗 Source

Пользователь Reddit создал локальный уровень постоянной памяти для Claude, решающий проблему нулевого контекста между сессиями. Стек полностью локальный (без облака, без ключей API) и интегрируется через MCP. Ключевая архитектура: четыре уровня (L0 — только добавление событий в SQLite, L1 — отложенные факты, L2/L3 — вики-текст, L4 — кристаллизованные узлы сессий с резюме + решения + открытые темы), Qdrant в Docker для векторного поиска, llama.cpp с Qwen3-Embedding-4B на GPU и Qwen3.5-2B-Q4_K_M на CPU для эмбеддинга и чата, а также сервер FastMCP, предоставляющий 7 инструментов (retrieve, crystallize_session, list_sessions, get_l4_node, index_status, reindex, shutdown_models).

Числа

Сокращение токенов по сравнению с базой grep+Read: среднее 82,7%, медиана 86,2%.
F1 извлечения: 0,50 против 0,20 базовой.
Холодный старт эмбеддинга ~4 с; p95 горячего пути 39 мс (было 2241 мс до исправления ошибки).
Оценка извлечения сессий L4: средний балл 0,920 (порог 0,6).
738 чанков проиндексировано в 104 файлах Markdown.

Ключевой урок: повторное использование соединения в Windows

Горячий путь извлечения застревал на p95 2241 мс, даже при эмбеддинге на GPU 4070 Ti Super. Причина: каждый httpx.post() открывал новое TCP-соединение, и рукопожатия localhost в Windows занимали ~2 секунды. Переключение на постоянный httpx.Client с keep-alive снизило p95 до 39 мс — ускорение в 57 раз.

Другие сюрпризы

Режим размышлений Qwen3: если enable_thinking не отключен через chat_template_kwargs: {enable_thinking: false} с --jinja на llama-server, модель тратит весь бюджет токенов на блоки размышлений и выводит пустое содержимое.
Регистрация MCP: Агентный режим Claude Desktop (Cowork) читает файл конфигурации плагина, а не ~/.claude.json. Сервис LKS должен быть упакован как правильный пакет .plugin для Cowork.

Для кого это

Для разработчиков, которые активно используют Claude и хотят экономичный, приватный, локальный слой памяти, поддерживающий контекст между сессиями без облачных зависимостей.

📖 Read the full source: r/ClaudeAI

👀 Смотрите также

Инструменты

Навык Agent Times для ClawHub добавляет запросы новостей в реальном времени, погоды и цен на токены.

Новый навык ClawHub под названием Agent Times позволяет ИИ-агентам отвечать на запросы в реальном времени о новостях, погоде и ценах на криптовалюты. Установка осуществляется через npx clawhub install agenttimes, и он предоставляет доступ к более чем 228 тысячам статей из 3 576 источников с оценкой тональности и извлечением сущностей.

7 апр. 2026 г., 15:45 UTC

OpenClawRadar

Инструменты

Объяснение режима Claude Cowork: выполнение задач на уровне файлов в сравнении с режимами чата и кода

Режим Cowork у Claude работает внутри выбранной папки для выполнения задач на уровне файлов, таких как организация беспорядочных папок, извлечение структурированных данных из скриншотов и объединение разрозненных заметок в структурированные документы.

8 мар. 2026 г., 21:45 UTC

OpenClawRadar

Инструменты

命运：克劳德代码插件——基于古典东亚占星术的确定性占卜

Destiny — это плагин для Claude Code, который вычисляет вашу натальную карту по восьми иероглифам, дневной столп сегодняшнего дня и гексаграмму И-Цзин детерминированно (Python), а затем использует Claude для генерации прозаических толкований — без галлюцинирующих LLM гороскопов.

2 мая 2026 г., 00:17 UTC

OpenClawRadar

Инструменты

Krasis: гибридная среда выполнения для больших моделей MoE на CPU/GPU демонстрирует скорость предзаполнения 3,324 ток/с на RTX 5080

Krasis — это гибридная среда выполнения CPU/GPU, предназначенная для работы с большими моделями типа Mixture-of-Experts (MoE). Она обрабатывает предварительное заполнение на GPU, а декодирование — на CPU, достигая скорости 3324 токена/с на RTX 5080 с моделью Qwen3-Coder-Next 80B Q4. Для работы требуется примерно в 2,5 раза больше оперативной памяти, чем размер модели, что позволяет запускать модели, слишком большие для видеопамяти.

27 февр. 2026 г., 21:45 UTC

OpenClawRadar