Lokales Qwen3-0.6B INT8 als Einbettungs-Backbone für KI-Gedächtnissystem

✍️ OpenClawRadar📅 Veröffentlicht: 20. März 2026🔗 Source
Lokales Qwen3-0.6B INT8 als Einbettungs-Backbone für KI-Gedächtnissystem
Ad

Ein Entwickler hat seine Implementierung eines lokalen Embedding-Systems geteilt, das Qwen3-0.6B quantisiert auf INT8 über ONNX Runtime als Rückgrat für ein KI-Gedächtnis-Lebenszyklus-System verwendet, das innerhalb von Claude Code läuft.

Problem und Anforderungen

Das System behandelt Skalierungsprobleme mit Embedding-APIs: Typische KI-Coding-Assistenten machen hunderte API-Aufrufe pro Tag (15-25 Sitzungen), was Latenz bei jedem Schreibvorgang erzeugt und Abhängigkeit von externen Diensten mit variabler Preisgestaltung schafft. Die Anforderungen umfassten 1024-dimensionale Vektoren, Kosinus-Ähnlichkeit über 0,75 für echte semantische Verwandtschaft, Batch-Verarbeitung für 20+ Einträge und null API-Aufrufe.

Modellauswahl und Implementierung

Nach dem Testen mehrerer Modelle bot Qwen3-0.6B mit 1024 Dimensionen eine bessere Trennung zwischen tatsächlich verwandten Einträgen und strukturellem Rauschen (Sitzungsprotokolle, die Format aber nicht Thema teilen) im Vergleich zu sentence-transformers-Modellen.

Die Implementierung verwendet ONNX Runtime mit INT8-Quantisierung. Das Kaltstart-Problem (3 Sekunden Modellladen) wurde mit einem persistenten Embedding-Server auf localhost:52525 gelöst, der das Modell einmal beim Systemstart lädt. Warme Inferenz erreicht ~12ms pro Batch, etwa 250x schneller als Kaltstart.

Systemarchitektur

  • Der Server startet automatisch über einen Startup-Hook
  • Wenn der Server ausfällt, fällt das System auf direktes ONNX-Laden zurück (langsamer aber funktional)
  • Vollständig CPU-basiert, keine GPU benötigt
  • Einzelnes Python-Skript, ~2.900 Zeilen, SQLite + ONNX
Ad

Gedächtnis-Lebenszyklus-Phasen

Das System verarbeitet Wissen durch 5 Phasen, wobei Embeddings die Phasen 2 bis 4 antreiben:

  1. Puffer
  2. Verbinden: Neue Einträge werden mit bestehenden Einträgen über 0,75 Kosinus-Ähnlichkeit verknüpft. Isolierte Einträge verblassen mit der Zeit, während verbundene Einträge bestehen bleiben. Ablauf basiert auf Isolation, nicht auf Zeit.
  3. Konsolidieren: Gruppen von 3+ verbundenen Einträgen werden durch eine LLM (Gemini Flash Free Tier) zu bewiesenem Wissen zusammengeführt
  4. Weiterleiten: Bewiesenes Wissen wird basierend auf Embedding-Distanz zu bestehendem Inhalt zur richtigen Konfigurationsdatei weitergeleitet
  5. Altern

Technische Details

  • Modell: Qwen3-0.6B quantisiert auf INT8
  • Vektordimensionen: 1024
  • Ähnlichkeitsschwelle: 0,75 Kosinus-Ähnlichkeit für echte semantische Verwandtschaft
  • Leistung: ~12ms pro Batch für warme Inferenz
  • Hardware: Läuft auf jedem modernen Rechner nur mit CPU

Das Projekt ist Open Source unter github.com/living0tribunal-dev/claude-memory-lifecycle mit einer detaillierten Engineering-Story, die Schwellenwertentscheidungen und Fehlermodi nach der Verarbeitung von 3.874 Gedächtnissen behandelt.

📖 Read the full source: r/LocalLLaMA

Ad

👀 Siehe auch

Entwickler erstellte in Wochen 3 iOS-Apps mit Claude AI von der Idee bis zum Debugging
Anwendungsfälle

Entwickler erstellte in Wochen 3 iOS-Apps mit Claude AI von der Idee bis zum Debugging

Ein Entwickler nutzte Claude, um drei iOS-Apps zu entwickeln – Smart Facts, Jar of Joy und Bloom Studio – und deckte damit Ideenfindung, Feature-Verfeinerung, Logikschreiben, Debugging und Iteration ab.

OpenClawRadar
Dokumente-Tab für Claude Desktop: Eine Code-Tab-Neugestaltung für Wissensarbeiter
Anwendungsfälle

Dokumente-Tab für Claude Desktop: Eine Code-Tab-Neugestaltung für Wissensarbeiter

Ein Reddit-Vorschlag schlägt vor, den Code-Tab-Agenten-Loop und den Git-Arbeitsbereich von Claude Desktop in einen Markdown-zentrierten 'Dokumente'-Tab für Compliance-, Rechts- und Betriebsteams umzuwidmen – das Entwickler-Vokabular hinter vertrauten Dokumentenarbeitsablauf-Beschriftungen versteckt.

OpenClawRadar
Finanzanalyst nutzt Claude Code, um DCF-Modell ohne Programmierkenntnisse zu erstellen
Anwendungsfälle

Finanzanalyst nutzt Claude Code, um DCF-Modell ohne Programmierkenntnisse zu erstellen

Ein Finanzanalyst ohne Terminalerfahrung nutzte Claude Code, um in 20-25 Minuten ein Discounted-Cashflow-Modell zu erstellen, statt 1-2 Tage. Das Tool las Finanzdateien und erzeugte nach Eingabe von /dcf [Firmenname] ein vollständig strukturiertes Excel-Modell mit funktionierenden Formeln.

OpenClawRadar
Aufbau einer Videoerzeugungspipeline mit OpenClaw, ClawVid und Composio
Anwendungsfälle

Aufbau einer Videoerzeugungspipeline mit OpenClaw, ClawVid und Composio

Ein Entwickler baute ein Wochenendprojekt mit OpenClaw als Laufzeitumgebung und Claude als LLM, integrierte Composio für Tool-Authentifizierung und ClawVid mit Remotion für die Videogenerierung. Die Pipeline erstellt MP4-Videos mit Voiceover, Bildern, Musik und Untertiteln aus Textaufforderungen.

OpenClawRadar