Qwen3.6-35B-A3B: 37-51 tok/s sur 8 Go VRAM avec 192k contexte

Un utilisateur de Reddit a publié une configuration détaillée pour exécuter des modèles GGUF Qwen3.6-35B-A3B avec environ 190k de contexte sur un ordinateur portable doté de 8 Go de VRAM (RTX 4060) et 32 Go de RAM DDR5. Il rapporte 37-43 tok/s sortie de boîte, et avec des ajustements, jusqu'à ~51 tok/s.

Matériel et modèles

GPU : RTX 4060 8 Go VRAM
RAM : 32 Go DDR5 5600 MHz
Système d'exploitation : Linux (les performances sont meilleures que sous Windows)
Modèles testés (quantification Q5) :
- mudler/Qwen3.6-35B-A3B-APEX-GGUF – ~40 tok/s à 37 tok/s
- hesamation/Qwen3.6-35B-A3B-Claude-4.6-Opus-Reasoning-Distilled-GGUF – ~43 tok/s à 37 tok/s

Configuration clé

En utilisant un fork de llama.cpp avec le support TurboQuant (turboquant_plus), l'utilisateur exécute llama-server avec les indicateurs suivants :

--model "<chemin>" \
--host 0.0.0.0 \
--port 8085 \
--ctx-size 192640 \
--n-gpu-layers 430 \
--n-cpu-moe 35 \
--cache-type-k "turbo4" \
--cache-type-v "turbo4" \
--flash-attn on \
--batch-size 2048 \
--parallel 1 \
--no-mmap \
--mlock \
--ubatch-size 512 \
--threads 6 \
--cont-batching \
--timeout 300 \
--temp 0.2 \
--top-p 0.95 \
--min-p 0.05 \
--top-k 20 \
--metrics \
--chat-template-kwargs '{"preserve_thinking": true}'

Pour atteindre des vitesses d'environ 51 tok/s, ajustez trois indicateurs : --ctx-size 192640, --n-gpu-layers 430, --n-cpu-moe 35 (modifiez légèrement selon la stabilité/la mémoire).

Précautions

La quantification Q4 est nettement moins bonne pour le raisonnement en contexte long par rapport à Q5.
--no-mmap + --mlock réduit les ralentissements et les saccades.
Le cache KV TurboQuant est essentiel pour les contextes de grande taille.
Une bande passante RAM élevée (DDR5) est importante pour ces vitesses.
Linux surpasse Windows de manière significative pour cette charge de travail.

À qui cela s'adresse

Développeurs exécutant des LLM locaux avec des contextes très longs (170k+ tokens) sur du matériel grand public, notamment ceux avec 8 à 12 Go de VRAM et une RAM système rapide.

📖 Lire la source complète : r/LocalLLaMA

Exécution de Qwen3.6-35B-A3B avec ~190k de contexte sur 8 Go de VRAM + 32 Go de RAM – Configuration et benchmarks

Matériel et modèles

Configuration clé

Précautions

À qui cela s'adresse

👀 See Also

Principes d'écriture de compétences pour Claude Code, issus de 159 compétences open-source

Guide Visuel du Cycle de Vie des 27 Hooks de Claude Code

Contournement par Raccourci iOS pour envoyer des photos iPhone à Cowork via la synchronisation iCloud

Comment exécuter des agents OpenClaw gratuitement en utilisant des API cloud ou des modèles locaux