Qwen3-0.6B INT8 Lokales Embedding-Modell: 12ms CPU-Inferenz

Ein Entwickler hat seine Implementierung eines lokalen Embedding-Systems geteilt, das Qwen3-0.6B quantisiert auf INT8 über ONNX Runtime als Rückgrat für ein KI-Gedächtnis-Lebenszyklus-System verwendet, das innerhalb von Claude Code läuft.

Problem und Anforderungen

Das System behandelt Skalierungsprobleme mit Embedding-APIs: Typische KI-Coding-Assistenten machen hunderte API-Aufrufe pro Tag (15-25 Sitzungen), was Latenz bei jedem Schreibvorgang erzeugt und Abhängigkeit von externen Diensten mit variabler Preisgestaltung schafft. Die Anforderungen umfassten 1024-dimensionale Vektoren, Kosinus-Ähnlichkeit über 0,75 für echte semantische Verwandtschaft, Batch-Verarbeitung für 20+ Einträge und null API-Aufrufe.

Modellauswahl und Implementierung

Nach dem Testen mehrerer Modelle bot Qwen3-0.6B mit 1024 Dimensionen eine bessere Trennung zwischen tatsächlich verwandten Einträgen und strukturellem Rauschen (Sitzungsprotokolle, die Format aber nicht Thema teilen) im Vergleich zu sentence-transformers-Modellen.

Die Implementierung verwendet ONNX Runtime mit INT8-Quantisierung. Das Kaltstart-Problem (3 Sekunden Modellladen) wurde mit einem persistenten Embedding-Server auf localhost:52525 gelöst, der das Modell einmal beim Systemstart lädt. Warme Inferenz erreicht ~12ms pro Batch, etwa 250x schneller als Kaltstart.

Systemarchitektur

Der Server startet automatisch über einen Startup-Hook
Wenn der Server ausfällt, fällt das System auf direktes ONNX-Laden zurück (langsamer aber funktional)
Vollständig CPU-basiert, keine GPU benötigt
Einzelnes Python-Skript, ~2.900 Zeilen, SQLite + ONNX

Gedächtnis-Lebenszyklus-Phasen

Das System verarbeitet Wissen durch 5 Phasen, wobei Embeddings die Phasen 2 bis 4 antreiben:

Puffer
Verbinden: Neue Einträge werden mit bestehenden Einträgen über 0,75 Kosinus-Ähnlichkeit verknüpft. Isolierte Einträge verblassen mit der Zeit, während verbundene Einträge bestehen bleiben. Ablauf basiert auf Isolation, nicht auf Zeit.
Konsolidieren: Gruppen von 3+ verbundenen Einträgen werden durch eine LLM (Gemini Flash Free Tier) zu bewiesenem Wissen zusammengeführt
Weiterleiten: Bewiesenes Wissen wird basierend auf Embedding-Distanz zu bestehendem Inhalt zur richtigen Konfigurationsdatei weitergeleitet
Altern

Technische Details

Modell: Qwen3-0.6B quantisiert auf INT8
Vektordimensionen: 1024
Ähnlichkeitsschwelle: 0,75 Kosinus-Ähnlichkeit für echte semantische Verwandtschaft
Leistung: ~12ms pro Batch für warme Inferenz
Hardware: Läuft auf jedem modernen Rechner nur mit CPU

Das Projekt ist Open Source unter github.com/living0tribunal-dev/claude-memory-lifecycle mit einer detaillierten Engineering-Story, die Schwellenwertentscheidungen und Fehlermodi nach der Verarbeitung von 3.874 Gedächtnissen behandelt.

📖 Read the full source: r/LocalLLaMA