Optimierung von Qwen 3.6 27B/35B auf RTX 3090: Flags, Quantisierung und Auto-Routing

Ein Entwickler, der Qwen 3.6-Modelle lokal auf einer RTX 3090 (24 GB VRAM), Ryzen 5700X, 64 GB RAM, Windows 11 betreibt, stößt auf Leistungs- und Zuverlässigkeitsprobleme. Er verwendet llama-server mit benutzerdefinierten Flags und sucht Rat zu Quantisierungsauswahl, Durchsatz und automatischer Modellweiterleitung.
Befehle und Quantisierungen
35B (UD Q4_K_M):
llama-server.exe -m "path\Qwen3.6-35B-A3B-UD-Q4_K_M.gguf" -ngl 99 -c 131072 -np 2 -fa on -ctk f16 -ctv f16 -b 2048 -ub 512 -t 8 --mlock -rea on --reasoning-budget 2048 --reasoning-format deepseek --jinja --metrics --slots --port 8081 --host 0.0.0.027B (UD Q4_K_XL):
llama-server.exe -m "path\Qwen3.6-27B-UD-Q4_K_XL.gguf" -ngl 99 -c 196608 -np 1 -fa on -ctk q8_0 -ctv q8_0 -b 2048 -ub 512 -t 8 --no-mmap -rea on --reasoning-budget -1 --reasoning-format deepseek --jinja --metrics --slots --port 8081 --host 0.0.0.0Gemeldete Probleme
- 35B zu langsam – selbst einfache iterative Aufgaben fühlen sich unbenutzbar an.
- 27B schneller, aber unzuverlässig – Codeausgabe bricht ab; einfache Aufgaben können 20–30 Minuten dauern.
- Manuelles Modellwechseln – Server muss beendet, neuer Befehl eingefügt und Modell neu geladen werden.
Spezifische Fragen
- Sind die Flags suboptimal? (z. B. Kontextgröße, Batchgröße, Cache-Typ)
- Welche Quantisierung / welches Modell bietet die beste Balance zwischen Geschwindigkeit und Code-Genauigkeit bei 24 GB VRAM?
- Wie kann man Modelle pro Anfrage automatisch wechseln oder mehrere Modelle warm halten und weiterleiten?
Kontext
Der Benutzer betreibt den Hermes-Agenten auf einem Raspberry Pi 5 für Scraping und Automatisierung sowie lokales Coding mit OpenCode/QwenCode. Er möchte ein Setup, das keine manuellen Serverneustarts erfordert.
📖 Vollständige Quelle lesen: r/LocalLLaMA
👀 Siehe auch

OpenClaw 4.1 mit Gemma 4 Stack: Hybride Architektur und Setup-Korrekturen
Ein Reddit-Beitrag beschreibt einen optimierten lokalen Agenten-Stack, der OpenClaw 4.1 mit Googles Gemma-4-Modell kombiniert und eine hybride Architektur, spezifische Konfigurationskorrekturen für Ollama-Tool-Calling sowie Anpassungen des Kontextfensters umfasst.

Mit OpenClaws sieben Optimierungstechniken Token-Kosten um 95 % senken
Ein umfassender Leitfaden, der sieben Techniken zur Reduzierung des KI-Agenten-Tokenverbrauchs um über 95% beschreibt, darunter baumstrukturierte Boot-Dateien, KI-Auto-Kompression, lokale Modellauslagerung und cron-basierte CPU-Aufgaben.

So beheben Sie Probleme mit der OpenClaw-Installation: Probleme mit mehreren Agenten und Modellantworten.
Probleme bei der Einrichtung von OpenClaw? Entdecken Sie häufige Probleme mit Multi-Agenten-Konfigurationen und nicht reagierenden Modellen und erfahren Sie, wie Sie diese lösen können.

Aufbau eines lokalen Finanzdaten- und persönlichen KI-Systems auf dem Mac Studio
Ein Entwickler berichtet über den Bau einer vollständig lokalisierten Finanzdatenverarbeitung und persönlichen KI-Assistenten auf einem Mac Studio, einschließlich Architekturentscheidungen, Speicheraufteilung, Cron-Orchestrierung und Ersteinrichtungsoptimierungen.