Qwen3.6-35B-A3B: 190K Kontext auf 8 GB VRAM

Ein Reddit-Nutzer hat eine detaillierte Anleitung zum Ausführen von Qwen3.6-35B-A3B GGUF-Modellen mit ~190k Kontext auf einem Laptop mit 8 GB VRAM (RTX 4060) und 32 GB DDR5-RAM veröffentlicht. Er berichtet von 37-43 tok/s direkt nach der Installation, mit Optimierungen auf ~51 tok/s.

Hardware & Modelle

GPU: RTX 4060 8 GB VRAM
RAM: 32 GB DDR5 5600 MHz
Betriebssystem: Linux (Leistung besser als unter Windows)
Getestete Modelle (Q5-Quantisierung):
- mudler/Qwen3.6-35B-A3B-APEX-GGUF – ~40 tok/s bis 37 tok/s
- hesamation/Qwen3.6-35B-A3B-Claude-4.6-Opus-Reasoning-Distilled-GGUF – ~43 tok/s bis 37 tok/s

Wichtige Konfiguration

Mit einem Fork von llama.cpp mit TurboQuant-Unterstützung (turboquant_plus) führt der Nutzer llama-server mit den folgenden Flags aus:

--model "<Pfad>" \
--host 0.0.0.0 \
--port 8085 \
--ctx-size 192640 \
--n-gpu-layers 430 \
--n-cpu-moe 35 \
--cache-type-k "turbo4" \
--cache-type-v "turbo4" \
--flash-attn on \
--batch-size 2048 \
--parallel 1 \
--no-mmap \
--mlock \
--ubatch-size 512 \
--threads 6 \
--cont-batching \
--timeout 300 \
--temp 0.2 \
--top-p 0.95 \
--min-p 0.05 \
--top-k 20 \
--metrics \
--chat-template-kwargs '{"preserve_thinking": true}'

Um Geschwindigkeiten von ~51 tok/s zu erreichen, passen Sie drei Flags an: --ctx-size 192640, --n-gpu-layers 430, --n-cpu-moe 35 (leicht anpassen je nach Stabilität/Speicher).

Einschränkungen

Q4-Quantisierung ist für das Denken mit langem Kontext merklich schlechter als Q5.
--no-mmap + --mlock reduziert Ruckler und Verlangsamungen.
TurboQuant KV-Cache ist bei großen Kontextgrößen entscheidend.
Hohe RAM-Bandbreite (DDR5) ist für diese Geschwindigkeiten wichtig.
Linux übertrifft Windows für diese Arbeitslast deutlich.

Für wen das gedacht ist

Entwickler, die lokale LLMs mit sehr langen Kontexten (170k+ Token) auf Consumer-Hardware ausführen, insbesondere solche mit 8-12 GB VRAM und schnellem System-RAM.

📖 Vollständige Quelle lesen: r/LocalLLaMA

Qwen3.6-35B-A3B mit ~190K Kontext auf 8 GB VRAM + 32 GB RAM ausführen – Einrichtung und Benchmarks

Hardware & Modelle

Wichtige Konfiguration

Einschränkungen

Für wen das gedacht ist

👀 Siehe auch

Wie man unerwartete OpenRouter-Kosten in der OpenClaw-Automatisierung vermeidet

Mac Mini M4 Pro vs Mac Studio M4 Max für lokale LLM-Inferenz – Wichtige Überlegungen

Forschung zeigt: Effektives AI-Prompting ist kooperative Kommunikation, nicht Ingenieursarbeit

Claude vs GPT für die akademische Doktorarbeit: Bewahrung der fachlichen Bedeutung in Methodenabschnitten