Qwen3-0.6B INT8 Embedding: 12ms Inférence sur CPU

Un développeur a partagé son implémentation d'un système d'incorporation local utilisant Qwen3-0.6B quantifié en INT8 via ONNX Runtime comme base pour un système de cycle de vie de mémoire IA qui s'exécute à l'intérieur de Claude Code.

Problème et Exigences

Le système aborde les problèmes d'échelle des API d'incorporation : les assistants de codage IA typiques effectuent des centaines d'appels API par jour (15-25 sessions), créant de la latence à chaque écriture et une dépendance aux services externes avec des tarifs variables. Les exigences incluaient des vecteurs de 1024 dimensions, une similarité cosinus supérieure à 0,75 indiquant une véritable pertinence sémantique, un traitement par lots pour 20+ entrées, et zéro appel API.

Sélection du Modèle et Implémentation

Après avoir testé plusieurs modèles, Qwen3-0.6B à 1024 dimensions a fourni une meilleure séparation entre les entrées véritablement liées et le bruit structurel (journaux de session partageant le format mais pas le sujet) par rapport aux modèles sentence-transformers.

L'implémentation utilise ONNX Runtime avec une quantification INT8. Le problème de démarrage à froid (chargement du modèle en 3 secondes) a été résolu avec un serveur d'incorporation persistant sur localhost:52525 qui charge le modèle une seule fois au démarrage du système. L'inférence à chaud atteint ~12 ms par lot, environ 250 fois plus rapide que le démarrage à froid.

Architecture du Système

Le serveur démarre automatiquement via un crochet de démarrage
Si le serveur tombe, le système revient à un chargement ONNX direct (plus lent mais fonctionnel)
Tout basé sur CPU, pas de GPU nécessaire
Script Python unique, ~2 900 lignes, SQLite + ONNX

Phases du Cycle de Vie de la Mémoire

Le système traite les connaissances à travers 5 phases, avec les incorporations pilotant les phases 2 à 4 :

Tampon
Connecter : Les nouvelles entrées sont liées aux entrées existantes au-dessus de 0,75 de similarité cosinus. Les entrées isolées s'estompent avec le temps tandis que les entrées connectées survivent. L'expiration est basée sur l'isolement, pas sur le temps.
Consolider : Les groupes de 3+ entrées connectées sont fusionnés en connaissances éprouvées par un LLM (Gemini Flash niveau gratuit)
Acheminer : Les connaissances éprouvées sont acheminées vers le bon fichier de configuration en fonction de la distance d'incorporation au contenu existant
Vieillir

Détails Techniques

Modèle : Qwen3-0.6B quantifié en INT8
Dimensions des vecteurs : 1024
Seuil de similarité : 0,75 de similarité cosinus pour une véritable pertinence sémantique
Performance : ~12 ms par lot pour l'inférence à chaud
Matériel : Fonctionne sur toute machine moderne avec CPU uniquement

Le projet est open source à github.com/living0tribunal-dev/claude-memory-lifecycle avec une histoire d'ingénierie détaillée couvrant les décisions de seuil et les modes de défaillance après avoir traité 3 874 mémoires.

📖 Lire la source complète : r/LocalLLaMA

Qwen3-0.6B INT8 local comme épine dorsale d'embedding pour le système de mémoire IA

Problème et Exigences

Sélection du Modèle et Implémentation

Architecture du Système

Phases du Cycle de Vie de la Mémoire

Détails Techniques

👀 See Also

Exécuter Claude avec Qwen 3.5 en tant qu'agent persistant sur Mac Mini révèle un goulot d'étranglement humain.

OpenClaw + Claude Code/Codex en tandem : un exemple concret du meilleur des deux mondes

Migration d'OpenClaw vers Cowork + Claude Code : L'expérience d'un développeur

Développement d'une Plateforme SaaS de Production de Plus de 20 000 Lignes avec Claude Code : Leçons Tirées de l'Ingénierie Agentique à Grande Échelle