10.33 t/s sur Qwen 3.5 35B avec un ordinateur portable à 300 $ : Répartition complète de l'optimisation

✍️ OpenClawRadar📅 Publié: June 14, 2026🔗 Source
10.33 t/s sur Qwen 3.5 35B avec un ordinateur portable à 300 $ : Répartition complète de l'optimisation
Ad

Un utilisateur de Reddit a poussé l'inférence de Qwen 3.5 35B à 10,33 t/s sur un Lenovo Ideapad Slim 3i à 300 $ (i3-1215U 12e génération, 8 Go soudés + 32 Go DDR4 d'extension). La configuration utilise un modèle MoE quantifié en Q4_K_S avec seulement ~3B paramètres actifs et le build 4509 de ik_llama.cpp.

Matériel et modèle

  • PC portable : Lenovo Ideapad Slim 3i 2023 (~300 $)
  • CPU : Intel i3-1215U (6 cœurs, 2 cœurs performance utilisés)
  • RAM : 8 Go soudés + 32 Go DDR4 SO-DIMM (mode Flex)
  • OS : Linux Mint
  • Modèle : Qwen3.5-35B-A3B-uncensored-heretic-v2-Native-MTP-Preserved-Q4_K_S.gguf (35B MoE, 3B paramètres actifs par token)
  • Backend : ik_llama.cpp commit 40aae0b6, compilé avec GCC 13.3.0

Optimisations appliquées

  • BIOS : Batterie → Mode performance extrême ; ventilateur réglé sur silencieux (éteint)
  • Profil d'alimentation OS : performance
  • Core pinning : threads épinglés aux cœurs performance 0 et 2 via taskset -c 0,2
  • Quantification : Q4_K_S
  • Taille de lot : 64 (-ub 64)
  • Décodage spéculatif : type MTP, draft max 3
  • Flash attention, fmoe, rtr — tous activés par défaut
  • Redémarrage à froid avant le benchmark
Ad

Commande utilisée

taskset -c 0,2 ./build/bin/llama-cli \
  -m "/home/default/LLM Models/Qwen3.5-35B-A3B-uncensored-heretic-v2-Native-MTP-Preserved-Q4_K_S.gguf" \
  -p "User: Please explain the history of france \nAI:" \
  -n 1028 \
  --spec-type mtp \
  --draft-max 3 \
  -t 2 \
  -ub 64 \
  --temp 1.0 \
  --top-p 0.95 \
  --top-k 20 \
  --min-p 0.0 \
  --presence-penalty 1.5 \
  --repeat-penalty 1.0

Résultats

  • Évaluation de prompt : 22,49 t/s
  • Inférence : 10,33 t/s (sur 1028 tokens)
  • Thermique : ~90°C, pas de limitation de wattage nécessaire avec ik_llama (auparavant besoin d'une limite à 17,5 W avec llama.cpp)

Pourquoi Qwen 3.5 MoE est rapide

L'architecture MoE de Qwen 3.5 35B n'active qu'environ 3B paramètres par token, contrairement aux modèles denses. À titre de comparaison, Gemma 4 26b (4B actifs) n'a atteint qu'environ 3 t/s dans des conditions similaires — ce qui suggère que le routage MoE et le calcul sparse de Qwen 3.5 sont particulièrement adaptés au CPU.

Gains potentiels supplémentaires

  • BIOS personnalisé pour timings mémoire XMP → +10 % t/s
  • Repaste thermique avec pâte haut de gamme
  • Passage de DDR4 à DDR5 (combiné avec repaste → +20 % t/s)

À qui cela s'adresse : Aux développeurs exécutant des LLM locaux sur du matériel économique qui veulent tirer le maximum des modèles MoE Qwen en inférence CPU uniquement.

📖 Lire la source complète : r/LocalLLaMA

Ad

👀 See Also

Godogen : Compétences de Code Claude pour la Génération Complète de Jeux Godot
Tools

Godogen : Compétences de Code Claude pour la Génération Complète de Jeux Godot

Godogen est un pipeline open-source qui utilise les compétences de Claude Code pour générer des projets Godot 4 complets et jouables à partir de prompts textuels. Il gère la conception de l'architecture, la génération d'actifs 2D/3D, l'écriture de GDScript et les tests visuels QA, en s'attaquant à des goulots d'étranglement spécifiques comme la pénurie de données d'entraînement pour le GDScript et les problèmes d'état entre le temps de compilation et le temps d'exécution.

OpenClawRadar
Cadre pour les coéquipiers IA dans Slack, entièrement opéré depuis Claude Code
Tools

Cadre pour les coéquipiers IA dans Slack, entièrement opéré depuis Claude Code

ginnie-agents est un framework open-source pour exécuter des agents IA autonomes avec des identités Slack, une mémoire à trois niveaux, des routines cron et des horaires de travail — le tout configuré et opéré via Claude Code. Nécessite Claude Code Max, Docker, Node 22+ et un espace de travail Slack avec les permissions de création d'applications.

OpenClawRadar
ClawCall obtient des numéros de téléphone dédiés : les agents peuvent désormais réserver un numéro pour les appels sortants
Tools

ClawCall obtient des numéros de téléphone dédiés : les agents peuvent désormais réserver un numéro pour les appels sortants

ClawCall, la compétence d'appel téléphonique IA pour les agents OpenClaw, permet désormais de réserver un numéro de téléphone par indicatif régional. Votre agent l'utilise par défaut pour passer des appels. 10 000 téléchargements, 300 appels/jour.

OpenClawRadar
Remplacer les pipelines de récupération complexes par des commandes git simples pour les agents IA
Tools

Remplacer les pipelines de récupération complexes par des commandes git simples pour les agents IA

Un développeur a remplacé son image Docker de 3 Go avec sentence-transformers, rank-bm25 et scikit-learn par un seul outil qui permet aux agents IA d'exécuter des commandes shell en lecture seule comme git log, grep et git diff directement sur leur référentiel de mémoire.

OpenClawRadar