Qwen3-0.6B INT8 local: incrustación IA con 12ms en CPU

Un desarrollador ha compartido su implementación de un sistema de incrustación local utilizando Qwen3-0.6B cuantizado a INT8 mediante ONNX Runtime como base para un sistema de ciclo de vida de memoria de IA que se ejecuta dentro de Claude Code.

Problema y Requisitos

El sistema aborda problemas de escalabilidad con las API de incrustación: los asistentes de codificación de IA típicos realizan cientos de llamadas a la API por día (15-25 sesiones), creando latencia en cada escritura y dependencia de servicios externos con precios variables. Los requisitos incluían vectores de 1024 dimensiones, similitud coseno superior a 0.75 indicando relación semántica genuina, procesamiento por lotes para 20+ entradas y cero llamadas a la API.

Selección del Modelo e Implementación

Después de probar varios modelos, Qwen3-0.6B con 1024 dimensiones proporcionó una mejor separación entre entradas genuinamente relacionadas y ruido estructural (registros de sesión que comparten formato pero no tema) en comparación con los modelos sentence-transformers.

La implementación utiliza ONNX Runtime con cuantización INT8. El problema de arranque en frío (carga del modelo de 3 segundos) se resolvió con un servidor de incrustación persistente en localhost:52525 que carga el modelo una vez al iniciar el sistema. La inferencia en caliente logra ~12ms por lote, aproximadamente 250 veces más rápido que el arranque en frío.

Arquitectura del Sistema

El servidor se inicia automáticamente mediante un gancho de inicio
Si el servidor se cae, el sistema recurre a la carga directa de ONNX (más lento pero funcional)
Todo basado en CPU, sin necesidad de GPU
Script único de Python, ~2,900 líneas, SQLite + ONNX

Fases del Ciclo de Vida de la Memoria

El sistema procesa el conocimiento a través de 5 fases, con las incrustaciones impulsando las fases 2 a la 4:

Búfer
Conectar: Las nuevas entradas se vinculan a entradas existentes por encima de 0.75 de similitud coseno. Las entradas aisladas se desvanecen con el tiempo mientras que las entradas conectadas sobreviven. La expiración se basa en el aislamiento, no en el tiempo.
Consolidar: Grupos de 3+ entradas conectadas se fusionan en conocimiento probado por un LLM (Gemini Flash nivel gratuito)
Enrutar: El conocimiento probado se enruta al archivo de configuración correcto basado en la distancia de incrustación al contenido existente
Envejecer

Detalles Técnicos

Modelo: Qwen3-0.6B cuantizado a INT8
Dimensiones del vector: 1024
Umbral de similitud: 0.75 similitud coseno para relación semántica genuina
Rendimiento: ~12ms por lote para inferencia en caliente
Hardware: Se ejecuta en cualquier máquina moderna solo con CPU

El proyecto es de código abierto en github.com/living0tribunal-dev/claude-memory-lifecycle con una historia de ingeniería detallada que cubre decisiones de umbral y modos de fallo después de procesar 3,874 memorias.

📖 Read the full source: r/LocalLLaMA