Qwen 3.5 35B à 10,33 t/s sur un PC à 300 $

Un utilisateur de Reddit a poussé l'inférence de Qwen 3.5 35B à 10,33 t/s sur un Lenovo Ideapad Slim 3i à 300 $ (i3-1215U 12e génération, 8 Go soudés + 32 Go DDR4 d'extension). La configuration utilise un modèle MoE quantifié en Q4_K_S avec seulement ~3B paramètres actifs et le build 4509 de ik_llama.cpp.

Matériel et modèle

PC portable : Lenovo Ideapad Slim 3i 2023 (~300 $)
CPU : Intel i3-1215U (6 cœurs, 2 cœurs performance utilisés)
RAM : 8 Go soudés + 32 Go DDR4 SO-DIMM (mode Flex)
OS : Linux Mint
Modèle : Qwen3.5-35B-A3B-uncensored-heretic-v2-Native-MTP-Preserved-Q4_K_S.gguf (35B MoE, 3B paramètres actifs par token)
Backend : ik_llama.cpp commit 40aae0b6, compilé avec GCC 13.3.0

Optimisations appliquées

BIOS : Batterie → Mode performance extrême ; ventilateur réglé sur silencieux (éteint)
Profil d'alimentation OS : performance
Core pinning : threads épinglés aux cœurs performance 0 et 2 via taskset -c 0,2
Quantification : Q4_K_S
Taille de lot : 64 (-ub 64)
Décodage spéculatif : type MTP, draft max 3
Flash attention, fmoe, rtr — tous activés par défaut
Redémarrage à froid avant le benchmark

Commande utilisée

taskset -c 0,2 ./build/bin/llama-cli \
  -m "/home/default/LLM Models/Qwen3.5-35B-A3B-uncensored-heretic-v2-Native-MTP-Preserved-Q4_K_S.gguf" \
  -p "User: Please explain the history of france \nAI:" \
  -n 1028 \
  --spec-type mtp \
  --draft-max 3 \
  -t 2 \
  -ub 64 \
  --temp 1.0 \
  --top-p 0.95 \
  --top-k 20 \
  --min-p 0.0 \
  --presence-penalty 1.5 \
  --repeat-penalty 1.0

Résultats

Évaluation de prompt : 22,49 t/s
Inférence : 10,33 t/s (sur 1028 tokens)
Thermique : ~90°C, pas de limitation de wattage nécessaire avec ik_llama (auparavant besoin d'une limite à 17,5 W avec llama.cpp)

Pourquoi Qwen 3.5 MoE est rapide

L'architecture MoE de Qwen 3.5 35B n'active qu'environ 3B paramètres par token, contrairement aux modèles denses. À titre de comparaison, Gemma 4 26b (4B actifs) n'a atteint qu'environ 3 t/s dans des conditions similaires — ce qui suggère que le routage MoE et le calcul sparse de Qwen 3.5 sont particulièrement adaptés au CPU.

Gains potentiels supplémentaires

BIOS personnalisé pour timings mémoire XMP → +10 % t/s
Repaste thermique avec pâte haut de gamme
Passage de DDR4 à DDR5 (combiné avec repaste → +20 % t/s)

À qui cela s'adresse : Aux développeurs exécutant des LLM locaux sur du matériel économique qui veulent tirer le maximum des modèles MoE Qwen en inférence CPU uniquement.

📖 Lire la source complète : r/LocalLLaMA