Optimierung von Qwen 3.6 27B/35B auf RTX 3090: Flags, Quantisierung und Auto-Routing

✍️ OpenClawRadar📅 Veröffentlicht: 5. Mai 2026🔗 Source

Ein Entwickler, der Qwen 3.6-Modelle lokal auf einer RTX 3090 (24 GB VRAM), Ryzen 5700X, 64 GB RAM, Windows 11 betreibt, stößt auf Leistungs- und Zuverlässigkeitsprobleme. Er verwendet llama-server mit benutzerdefinierten Flags und sucht Rat zu Quantisierungsauswahl, Durchsatz und automatischer Modellweiterleitung.

Befehle und Quantisierungen

35B (UD Q4_K_M):

llama-server.exe -m "path\Qwen3.6-35B-A3B-UD-Q4_K_M.gguf" -ngl 99 -c 131072 -np 2 -fa on -ctk f16 -ctv f16 -b 2048 -ub 512 -t 8 --mlock -rea on --reasoning-budget 2048 --reasoning-format deepseek --jinja --metrics --slots --port 8081 --host 0.0.0.0

27B (UD Q4_K_XL):

llama-server.exe -m "path\Qwen3.6-27B-UD-Q4_K_XL.gguf" -ngl 99 -c 196608 -np 1 -fa on -ctk q8_0 -ctv q8_0 -b 2048 -ub 512 -t 8 --no-mmap -rea on --reasoning-budget -1 --reasoning-format deepseek --jinja --metrics --slots --port 8081 --host 0.0.0.0

Gemeldete Probleme

35B zu langsam – selbst einfache iterative Aufgaben fühlen sich unbenutzbar an.
27B schneller, aber unzuverlässig – Codeausgabe bricht ab; einfache Aufgaben können 20–30 Minuten dauern.
Manuelles Modellwechseln – Server muss beendet, neuer Befehl eingefügt und Modell neu geladen werden.

Spezifische Fragen

Sind die Flags suboptimal? (z. B. Kontextgröße, Batchgröße, Cache-Typ)
Welche Quantisierung / welches Modell bietet die beste Balance zwischen Geschwindigkeit und Code-Genauigkeit bei 24 GB VRAM?
Wie kann man Modelle pro Anfrage automatisch wechseln oder mehrere Modelle warm halten und weiterleiten?

Kontext

Der Benutzer betreibt den Hermes-Agenten auf einem Raspberry Pi 5 für Scraping und Automatisierung sowie lokales Coding mit OpenCode/QwenCode. Er möchte ein Setup, das keine manuellen Serverneustarts erfordert.

📖 Vollständige Quelle lesen: r/LocalLLaMA

👀 Siehe auch

Anleitungen

Korrektur für Unter-Agenten, die in OpenClaw v2026.3.13 nicht angezeigt werden

Eine Problemumgehung für OpenClaw v2026.3.13, bei der benutzerdefinierte Sub-Agenten nicht in der Agentenliste erscheinen: Vereinfachen Sie die openclaw.json-Agentenliste, sodass sie nur IDs enthält, und registrieren Sie Agenten manuell in runs.json mit dem Status 'idle'.

16. März 2026, 06:45 UTC

OpenClawRadar

Anleitungen

Implementierung von Zeitverfolgung in Claude AI-Projekten

Eine Methode, die Claude AI verwendet, umfasst das Zeitstempeln von Antworten, um Arbeitssitzungen zu verfolgen und Pausenbeschränkungen zu senden.

14. Feb. 2026, 05:45 UTC

OpenClawRadar

Anleitungen

Behebung des Fehlers "VM-Dienst läuft nicht" in Cowork unter Windows 11

Ein Reddit-Benutzer teilt einen PowerShell-Befehl zur Behebung des Fehlers 'VM-Dienst läuft nicht' in Cowork, wenn Hyper-V installiert ist, der Hypervisor jedoch nicht beim Start ausgeführt wird. Die Lösung umfasst die Überprüfung von hypervisorlaunchtype und dessen Einstellung auf auto.

17. Apr. 2026, 01:45 UTC

OpenClawRadar

Anleitungen

Wie man sein OpenClaw-Setup mit speziellen Anweisungen und Verfeinerungen optimiert.

Die Optimierung von OpenClaw basiert auf präzisen Anweisungen und kontinuierlicher Verfeinerung der Agentenpersönlichkeiten sowie der kosteneffizienten Nutzung von Modellen.

13. Feb. 2026, 09:45 UTC

OpenClawRadar