Локальный Qwen3-0.6B INT8 в качестве основы для эмбеддингов в системе искусственной памяти

✍️ OpenClawRadar📅 Опубликовано: 20 марта 2026 г.🔗 Source
Локальный Qwen3-0.6B INT8 в качестве основы для эмбеддингов в системе искусственной памяти
Ad

Разработчик поделился своей реализацией локальной системы эмбеддингов, использующей Qwen3-0.6B, квантованный в INT8 через ONNX Runtime, в качестве основы для системы жизненного цикла памяти ИИ, работающей внутри Claude Code.

Проблема и требования

Система решает проблемы масштабирования с API эмбеддингов: типичные ИИ-ассистенты для программирования выполняют сотни вызовов API в день (15-25 сессий), создавая задержку при каждой записи и зависимость от внешних сервисов с переменным ценообразованием. Требования включали 1024-мерные векторы, косинусное сходство выше 0.75, указывающее на подлинную семантическую связанность, пакетную обработку для 20+ записей и нулевые вызовы API.

Выбор модели и реализация

После тестирования нескольких моделей, Qwen3-0.6B с 1024 измерениями обеспечил лучшее разделение между подлинно связанными записями и структурным шумом (логи сессий, имеющие общий формат, но не тему) по сравнению с моделями sentence-transformers.

Реализация использует ONNX Runtime с INT8 квантованием. Проблема холодного старта (3-секундная загрузка модели) была решена с помощью постоянного сервера эмбеддингов на localhost:52525, который загружает модель один раз при загрузке системы. Тёплый вывод достигает ~12 мс на пакет, примерно в 250 раз быстрее холодного старта.

Архитектура системы

  • Сервер запускается автоматически через стартовый хук
  • Если сервер падает, система переключается на прямую загрузку ONNX (медленнее, но функционально)
  • Полностью на CPU, GPU не требуется
  • Один скрипт на Python, ~2900 строк, SQLite + ONNX
Ad

Фазы жизненного цикла памяти

Система обрабатывает знания через 5 фаз, причём эмбеддинги управляют фазами со 2 по 4:

  1. Буфер
  2. Связывание: Новые записи связываются с существующими записями выше 0.75 косинусного сходства. Изолированные записи со временем исчезают, а связанные сохраняются. Срок действия определяется изоляцией, а не временем.
  3. Консолидация: Группы из 3+ связанных записей объединяются в проверенные знания с помощью LLM (Gemini Flash бесплатного уровня)
  4. Маршрутизация: Проверенные знания направляются в нужный конфигурационный файл на основе расстояния эмбеддингов до существующего содержимого
  5. Старение

Технические детали

  • Модель: Qwen3-0.6B, квантованная в INT8
  • Размерность векторов: 1024
  • Порог сходства: 0.75 косинусного сходства для подлинной семантической связанности
  • Производительность: ~12 мс на пакет для тёплого вывода
  • Оборудование: Работает на любом современном компьютере только на CPU

Проект имеет открытый исходный код на github.com/living0tribunal-dev/claude-memory-lifecycle с подробной инженерной историей, охватывающей решения по порогам и режимы сбоев после обработки 3874 воспоминаний.

📖 Read the full source: r/LocalLLaMA

Ad

👀 Смотрите также

Искусственный интеллект создает 3D-печатную перфорированную панель из ручного эскиза
Кейсы

Искусственный интеллект создает 3D-печатную перфорированную панель из ручного эскиза

Разработчик использовал Codex для преобразования ручного наброска в параметрические 3D-модели для игрушки-перфорированной доски, указав всего два размера: расстояние между отверстиями 40 мм и ширина штыря 8 мм. Репозиторий содержит Python-генераторы для семи игровых элементов, четырёх шестерёнок и печатаемых досок.

OpenClawRadar
Архитектура системы ежедневного разведывательного брифинга, построенной на основе Claude
Кейсы

Архитектура системы ежедневного разведывательного брифинга, построенной на основе Claude

Разработчик создал персонализированную систему ежедневных брифингов с использованием Claude API, которая собирает RSS-ленты, оценивает статьи по релевантности, сортирует их и доставляет анализ по электронной почте. Конвейер обрабатывает около 200 статей в день, фильтрует до 5-8 для анализа и обходится менее чем в $5 в месяц.

OpenClawRadar
Конвейер TDD с ИИ: Как плохие инструкции породили 3 400 тестов и что это исправило
Кейсы

Конвейер TDD с ИИ: Как плохие инструкции породили 3 400 тестов и что это исправило

Разработчик создал многокомпонентный конвейер TDD с использованием Claude Code, где разные агенты занимаются тестированием, написанием кода и ревью. Исходная инструкция «написать тесты для всего» привела к созданию 3400 тестов, из которых только 44% были валидными, что вылилось в «театр покрытия», где тесты не выявляли реальные ошибки.

OpenClawRadar
🦀
Кейсы

Локальное развертывание OpenClaw vs развертывание на VPS: практические различия для AI-агентов программирования

Локальный запуск OpenClaw обеспечивает доступ к реальному браузеру с существующими сессиями входа и доступ к локальным файлам, в то время как развертывание на VPS ограничивает функциональность базовыми задачами и сталкивается с ограничениями веб-сайтов.

OpenClawRadar