Локальный Qwen3-0.6B INT8 в качестве основы для эмбеддингов в системе искусственной памяти

✍️ OpenClawRadar📅 Опубликовано: 20 марта 2026 г.🔗 Source

Разработчик поделился своей реализацией локальной системы эмбеддингов, использующей Qwen3-0.6B, квантованный в INT8 через ONNX Runtime, в качестве основы для системы жизненного цикла памяти ИИ, работающей внутри Claude Code.

Проблема и требования

Система решает проблемы масштабирования с API эмбеддингов: типичные ИИ-ассистенты для программирования выполняют сотни вызовов API в день (15-25 сессий), создавая задержку при каждой записи и зависимость от внешних сервисов с переменным ценообразованием. Требования включали 1024-мерные векторы, косинусное сходство выше 0.75, указывающее на подлинную семантическую связанность, пакетную обработку для 20+ записей и нулевые вызовы API.

Выбор модели и реализация

После тестирования нескольких моделей, Qwen3-0.6B с 1024 измерениями обеспечил лучшее разделение между подлинно связанными записями и структурным шумом (логи сессий, имеющие общий формат, но не тему) по сравнению с моделями sentence-transformers.

Реализация использует ONNX Runtime с INT8 квантованием. Проблема холодного старта (3-секундная загрузка модели) была решена с помощью постоянного сервера эмбеддингов на localhost:52525, который загружает модель один раз при загрузке системы. Тёплый вывод достигает ~12 мс на пакет, примерно в 250 раз быстрее холодного старта.

Архитектура системы

Сервер запускается автоматически через стартовый хук
Если сервер падает, система переключается на прямую загрузку ONNX (медленнее, но функционально)
Полностью на CPU, GPU не требуется
Один скрипт на Python, ~2900 строк, SQLite + ONNX

Фазы жизненного цикла памяти

Система обрабатывает знания через 5 фаз, причём эмбеддинги управляют фазами со 2 по 4:

Буфер
Связывание: Новые записи связываются с существующими записями выше 0.75 косинусного сходства. Изолированные записи со временем исчезают, а связанные сохраняются. Срок действия определяется изоляцией, а не временем.
Консолидация: Группы из 3+ связанных записей объединяются в проверенные знания с помощью LLM (Gemini Flash бесплатного уровня)
Маршрутизация: Проверенные знания направляются в нужный конфигурационный файл на основе расстояния эмбеддингов до существующего содержимого
Старение

Технические детали

Модель: Qwen3-0.6B, квантованная в INT8
Размерность векторов: 1024
Порог сходства: 0.75 косинусного сходства для подлинной семантической связанности
Производительность: ~12 мс на пакет для тёплого вывода
Оборудование: Работает на любом современном компьютере только на CPU

Проект имеет открытый исходный код на github.com/living0tribunal-dev/claude-memory-lifecycle с подробной инженерной историей, охватывающей решения по порогам и режимы сбоев после обработки 3874 воспоминаний.

📖 Read the full source: r/LocalLLaMA

👀 Смотрите также

Кейсы

Разработчик отправил 6 PR с телефона на вечеринке — агенты сделали всю работу

Пользователь Reddit продемонстрировал возможности автономных AI-агентов: он управлял несколькими pull request-ами с телефона, находясь на вечеринке. Его OpenClaw-агенты самостоятельно занимались бэкендом, оптимизацией и фронтендом.

8 февр. 2026 г., 10:34 UTC

Reddit User

Кейсы

Кейс отладки Claude: Агент молча завершил работу из-за отсутствующего параметра, контекст оказался важнее модели.

Разработчик использовал Claude для создания календарного агента, затем потратил 40 минут на отладку с помощью Claude, прежде чем понял, что инструмент write_calendar не имел параметра attendees. Когда была предоставлена полная контекстная информация, Claude определил проблему за 10 секунд.

7 апр. 2026 г., 14:45 UTC

OpenClawRadar

Кейсы

Агент Джем: ИИ-агенты сотрудничают в Godot Game Jam через GitHub

Agent Jam — это игровой джем, в котором ИИ-агенты создают веб-игру на Godot 4.4 в GitHub без кода, написанного людьми. Проект использует GitHub Issues для обсуждения дизайна, CI-валидацию для PR и требует, чтобы игры были доступны для игры в вебе через экспорт Godot HTML5.

13 апр. 2026 г., 12:45 UTC

OpenClawRadar

Кейсы

Персональная финансовая панель управления, созданная с помощью Claude AI: Самостоятельное размещение с использованием Google Таблиц в качестве бэкенда

Разработчик создал полнофункциональную личную финансовую панель управления с использованием Claude AI, которая объединяет инвестиции в акции, паевые инвестиционные фонды, физическое золото и срочные вклады. Приложение работает на запасном ПК, использует Cloudflare Tunnel для обслуживания и хранит все данные в собственных таблицах Google пользователя.

16 апр. 2026 г., 10:45 UTC

OpenClawRadar