Anwendung der Claude-Code-Architektur auf lokale 9B-Modelle: Wichtige Erkenntnisse und Optimierungen

✍️ OpenClawRadar📅 Veröffentlicht: 4. April 2026🔗 Source
Anwendung der Claude-Code-Architektur auf lokale 9B-Modelle: Wichtige Erkenntnisse und Optimierungen
Ad

Experimenteller Aufbau und Schlüsselerkenntnis

Der Entwickler verwendete eine RTX 5070 Ti (16 GB VRAM) mit qwen3.5:9b über Ollama (6,6 GB) und das OpenClaw-Local-Agent-Framework. Nach 18 Tests und 10 Optimierungen war die wichtigste Erkenntnis, dass qwen3.5:9b native strukturierte tool_calls hat, während qwen2.5-coder:14b und qwen2.5:14b JSON in das Inhaltsfeld einfügen anstatt korrekte tool_calls, was zusätzliches Parsing erfordert.

Leistungsvergleich

Modellleistungsvergleich:

  • qwen3.5:9b: Native tool_calls-Struktur, Denkkette aktiviert, 39 Tok/s
  • qwen2.5-coder:14b: Defekter Tool-Aufruf (im Inhaltsfeld), keine Denkkette, ~30 Tok/s
  • qwen2.5:14b: Defekter Tool-Aufruf (im Inhaltsfeld), keine Denkkette, ~35 Tok/s

10 Optimierungen aus der Architektur von Claude Code

  • Strukturierte Systemaufforderung → +600 % Ausgabequalität (A/B-getestet: 4 gefundene Probleme vs. 25+)
  • MicroCompact (Tool-Ergebnis-Kompression) → 80–93 % Kompression, 11 KB auf 367 Zeichen reduziert
  • Harter Cutoff (erzwungener Übergang von Erkunden zu Erzeugen) → Löste Erkundungsschleifen, in denen 9B-Modelle stecken bleiben, indem sie Dateien lesen, ohne Ausgabe zu erzeugen
  • think=false → 8–10-fache Token-Effizienz, eliminiert Sprachkontamination
  • ToolSearch verzögerte Ladung → –60 % Aufforderungsplatz (229 vs. 568 Tokens)
  • Vier-Typen-Gedächtnissystem (Benutzer/Feedback/Projekt/Referenz) → Personalisierte Antworten
  • KV-Cache-Forking → Minimaler Effekt auf einzelne GPU (1,1-fach), benötigt vLLM
  • Strenge Schreibdisziplin → Vor dem Aktualisieren des Gedächtnisses überprüfen, verhindert Gedächtniskorruption
  • Paralleles Bootstrap → 9 % schnellere Kaltstartzeit
  • Cache-Break-Tracking → Ollama cacht identische Aufforderungen (182 ms → 75 ms)
Ad

Kernaussage: Selbstdisziplin als die wahre Grenze

Die größte Erkenntnis war, dass die wahre Grenze für 9B-Modelle nicht die Denkfähigkeit oder die Genauigkeit der Tool-Nutzung ist, sondern die Selbstdisziplin – zu wissen, wann man mit dem Erkunden aufhören und mit der Ausgabeerzeugung beginnen soll. Ohne harten Cutoff nutzte das Modell alle 12 Schritte zum Lesen von Dateien und erzeugte 0 Bytes Bericht. Mit hartem Cutoff: 5 Schritte Lesen + 1 Schritt Schreiben = 6080 Bytes strukturierter Bericht.

Was qwen3.5:9b tatsächlich kann

  • 800-zeilige Bash-Skripte lesen und echte Fehler finden (Race Conditions, nicht-atomare Operationen) – 2 Min.
  • Architektur eines Vertriebs-Feedback-Systems entwerfen – 8,7 KB Dokument in 2,5 Min.
  • Vollständiges Projekt erstellen (Rechner + Tests + Tests ausführen) – 28 Sek.
  • 10-stufige autonome Ausführung: Web-Scraper schreiben → pip install scheitert → Workaround finden → erneut versuchen → Tests bestehen – null menschliches Eingreifen
  • Vollständige Mini-Fabrik-Pipeline: suchen → Artikel schreiben → überprüfen → als HTML veröffentlichen – 2,5 Min.

Vollständige Engine-Leistung

Alle 10 Optimierungen wurden in eine einzelne Python-Engine (~280 Zeilen) verpackt. Ergebnisse des ersten Laufs:

  • Bootstrap: 527 ms (paralleles Gedächtnis + Modellvorwärmung)
  • Erkunden: 5 Tool-Schritte mit MicroCompact (88 % Kompression)
  • Erzeugen: 1947 Zeichen strukturierter Bericht
  • Gesamt: 39,4 s / null API-Kosten

Was nicht funktionierte

  • KV-Cache-Forking auf einzelner GPU (benötigt Multi-GPU oder vLLM)
  • Schrittbudget in der Systemaufforderung (Modell ignoriert Meta-Anweisungen über sein eigenes Verhalten)
  • qwen2.5-Serie für Tool-Aufrufe (Formatprobleme)

Der Entwickler führte dies auf WSL2 + Ubuntu 24.04 aus und ist bereit, weitere Details oder den Engine-Code zu teilen.

📖 Read the full source: r/LocalLLaMA

Ad

👀 Siehe auch

Claude Code protokolliert jede Sitzung auf der Festplatte – so indexieren und rufen Sie sie ab
Werkzeuge

Claude Code protokolliert jede Sitzung auf der Festplatte – so indexieren und rufen Sie sie ab

Claude Code schreibt jeden Session-Turn in ~/.claude/projects/ als JSONL. Ein Benutzer indizierte 1026 Sitzungen (57MB, 76K Turns) in SQLite+FTS5 mit einem MCP-Server für Suche und Thread-Recall über Sitzungen hinweg.

OpenClawRadar
🦀
Werkzeuge

Multi-Agent-Speicher: Open-Source-Gemeinschaftsspeichersystem für KI-Agenten

Multi-Agent Memory ist ein Open-Source-Projekt, das ein gemeinsames Speichersystem für KI-Agenten über verschiedene Maschinen, Tools und Frameworks hinweg bereitstellt. Es unterstützt vier verschiedene Speichertypen mit spezifischen Verhaltensweisen und umfasst Funktionen wie Bereinigung von Zugangsdaten, Agenten-Isolation und KI-Konsolidierung.

OpenClawRadar
Open-Source-CLI nutzt Claude Haiku zur Automatisierung der Xero-Ausgabenprüfung
Werkzeuge

Open-Source-CLI nutzt Claude Haiku zur Automatisierung der Xero-Ausgabenprüfung

Ein Entwickler hat ein Open-Source-Python-CLI-Tool veröffentlicht, das Claude Haiku 4.5 zur Automatisierung der Xero-Ausgabenprüfung nutzt. Das Tool folgt einem 'deterministischen Code-zuerst, dann KI zur Lückenfüllung'-Ansatz und hält die Kosten auf wenige Cent pro Prüflauf.

OpenClawRadar
Open-Source Ralph Loop Toolkit für Claude Code: Pickle Rick und Mr. Meeseeks Agents
Werkzeuge

Open-Source Ralph Loop Toolkit für Claude Code: Pickle Rick und Mr. Meeseeks Agents

Eine Open-Source-Erweiterung für Claude Code implementiert die Ralph-Loop-Technik mit zwei autonomen Agenten: Pickle Rick für PRD-gesteuerte Entwicklung und Mr. Meeseeks für Code-Review. Beide nutzen tmux mit Live-Dashboards und macOS-Benachrichtigungen.

OpenClawRadar