Qwen3-0.6B INT8 Local: Incorporação para Memória de IA

Um desenvolvedor compartilhou sua implementação de um sistema de incorporação local usando o Qwen3-0.6B quantizado para INT8 via ONNX Runtime como base para um sistema de ciclo de vida de memória de IA que roda dentro do Claude Code.

Problema e Requisitos

O sistema aborda problemas de escalabilidade com APIs de incorporação: assistentes de codificação de IA típicos fazem centenas de chamadas de API por dia (15-25 sessões), criando latência em cada escrita e dependência de serviços externos com preços variáveis. Os requisitos incluíam vetores de 1024 dimensões, similaridade de cosseno acima de 0,75 indicando relação semântica genuína, processamento em lote para 20+ entradas e zero chamadas de API.

Seleção do Modelo e Implementação

Após testar vários modelos, o Qwen3-0.6B com 1024 dimensões forneceu melhor separação entre entradas genuinamente relacionadas e ruído estrutural (logs de sessão compartilhando formato mas não tópico) em comparação com modelos sentence-transformers.

A implementação usa ONNX Runtime com quantização INT8. O problema de inicialização a frio (carregamento do modelo de 3 segundos) foi resolvido com um servidor de incorporação persistente em localhost:52525 que carrega o modelo uma vez na inicialização do sistema. A inferência a quente alcança ~12ms por lote, aproximadamente 250x mais rápido que a inicialização a frio.

Arquitetura do Sistema

O servidor inicia automaticamente via um gancho de inicialização
Se o servidor cair, o sistema volta ao carregamento direto do ONNX (mais lento mas funcional)
Tudo baseado em CPU, sem necessidade de GPU
Script Python único, ~2.900 linhas, SQLite + ONNX

Fases do Ciclo de Vida da Memória

O sistema processa conhecimento através de 5 fases, com incorporações direcionando as fases 2 a 4:

Buffer
Conectar: Novas entradas são vinculadas a entradas existentes acima de 0,75 de similaridade de cosseno. Entradas isoladas desaparecem com o tempo enquanto entradas conectadas sobrevivem. Expiração baseada no isolamento, não no tempo.
Consolidar: Grupos de 3+ entradas conectadas são mescladas em conhecimento comprovado por um LLM (Gemini Flash camada gratuita)
Rotear: Conhecimento comprovado é roteado para o arquivo de configuração correto com base na distância de incorporação ao conteúdo existente
Envelhecer

Detalhes Técnicos

Modelo: Qwen3-0.6B quantizado para INT8
Dimensões do vetor: 1024
Limiar de similaridade: 0,75 de similaridade de cosseno para relação semântica genuína
Desempenho: ~12ms por lote para inferência a quente
Hardware: Roda em qualquer máquina moderna apenas com CPU

O projeto é de código aberto em github.com/living0tribunal-dev/claude-memory-lifecycle com uma história de engenharia detalhada cobrindo decisões de limiar e modos de falha após processar 3.874 memórias.

📖 Read the full source: r/LocalLLaMA