Локальный Qwen3-0.6B INT8 в качестве основы для эмбеддингов в системе искусственной памяти

Разработчик поделился своей реализацией локальной системы эмбеддингов, использующей Qwen3-0.6B, квантованный в INT8 через ONNX Runtime, в качестве основы для системы жизненного цикла памяти ИИ, работающей внутри Claude Code.
Проблема и требования
Система решает проблемы масштабирования с API эмбеддингов: типичные ИИ-ассистенты для программирования выполняют сотни вызовов API в день (15-25 сессий), создавая задержку при каждой записи и зависимость от внешних сервисов с переменным ценообразованием. Требования включали 1024-мерные векторы, косинусное сходство выше 0.75, указывающее на подлинную семантическую связанность, пакетную обработку для 20+ записей и нулевые вызовы API.
Выбор модели и реализация
После тестирования нескольких моделей, Qwen3-0.6B с 1024 измерениями обеспечил лучшее разделение между подлинно связанными записями и структурным шумом (логи сессий, имеющие общий формат, но не тему) по сравнению с моделями sentence-transformers.
Реализация использует ONNX Runtime с INT8 квантованием. Проблема холодного старта (3-секундная загрузка модели) была решена с помощью постоянного сервера эмбеддингов на localhost:52525, который загружает модель один раз при загрузке системы. Тёплый вывод достигает ~12 мс на пакет, примерно в 250 раз быстрее холодного старта.
Архитектура системы
- Сервер запускается автоматически через стартовый хук
- Если сервер падает, система переключается на прямую загрузку ONNX (медленнее, но функционально)
- Полностью на CPU, GPU не требуется
- Один скрипт на Python, ~2900 строк, SQLite + ONNX
Фазы жизненного цикла памяти
Система обрабатывает знания через 5 фаз, причём эмбеддинги управляют фазами со 2 по 4:
- Буфер
- Связывание: Новые записи связываются с существующими записями выше 0.75 косинусного сходства. Изолированные записи со временем исчезают, а связанные сохраняются. Срок действия определяется изоляцией, а не временем.
- Консолидация: Группы из 3+ связанных записей объединяются в проверенные знания с помощью LLM (Gemini Flash бесплатного уровня)
- Маршрутизация: Проверенные знания направляются в нужный конфигурационный файл на основе расстояния эмбеддингов до существующего содержимого
- Старение
Технические детали
- Модель: Qwen3-0.6B, квантованная в INT8
- Размерность векторов: 1024
- Порог сходства: 0.75 косинусного сходства для подлинной семантической связанности
- Производительность: ~12 мс на пакет для тёплого вывода
- Оборудование: Работает на любом современном компьютере только на CPU
Проект имеет открытый исходный код на github.com/living0tribunal-dev/claude-memory-lifecycle с подробной инженерной историей, охватывающей решения по порогам и режимы сбоев после обработки 3874 воспоминаний.
📖 Read the full source: r/LocalLLaMA
👀 Смотрите также

Искусственный интеллект создает 3D-печатную перфорированную панель из ручного эскиза
Разработчик использовал Codex для преобразования ручного наброска в параметрические 3D-модели для игрушки-перфорированной доски, указав всего два размера: расстояние между отверстиями 40 мм и ширина штыря 8 мм. Репозиторий содержит Python-генераторы для семи игровых элементов, четырёх шестерёнок и печатаемых досок.

Архитектура системы ежедневного разведывательного брифинга, построенной на основе Claude
Разработчик создал персонализированную систему ежедневных брифингов с использованием Claude API, которая собирает RSS-ленты, оценивает статьи по релевантности, сортирует их и доставляет анализ по электронной почте. Конвейер обрабатывает около 200 статей в день, фильтрует до 5-8 для анализа и обходится менее чем в $5 в месяц.

Конвейер TDD с ИИ: Как плохие инструкции породили 3 400 тестов и что это исправило
Разработчик создал многокомпонентный конвейер TDD с использованием Claude Code, где разные агенты занимаются тестированием, написанием кода и ревью. Исходная инструкция «написать тесты для всего» привела к созданию 3400 тестов, из которых только 44% были валидными, что вылилось в «театр покрытия», где тесты не выявляли реальные ошибки.
Локальное развертывание OpenClaw vs развертывание на VPS: практические различия для AI-агентов программирования
Локальный запуск OpenClaw обеспечивает доступ к реальному браузеру с существующими сессиями входа и доступ к локальным файлам, в то время как развертывание на VPS ограничивает функциональность базовыми задачами и сталкивается с ограничениями веб-сайтов.