Qwen 3.5 35B sur 8 Go VRAM : config llama.cpp et performances

Configuration locale de Qwen 3.5 35B avec VRAM limitée

Un développeur sur r/LocalLLaMA a détaillé sa configuration pour exécuter localement le modèle Qwen 3.5 35B sur du matériel avec 8 Go de VRAM. Il est passé d'Antigravity (avec un plan Google AI Pro) aux LLM locaux après avoir atteint les limites du service cloud.

Spécifications matérielles et du modèle

La configuration utilise un ordinateur portable Lenovo Legion avec un processeur i9-14900HX (avec les cœurs E désactivés dans le BIOS, 32 Go de RAM DDR5) et une carte graphique RTX 4060m avec 8 Go de VRAM. Le modèle spécifique est Qwen 3.5 35B A3B Heretic Opus (Q4_K_M GGUF).

Performances et configuration de llama.cpp

Le développeur rapporte obtenir environ 700 tokens par seconde pour le traitement des prompts et 42 tokens par seconde pour la génération de tokens avec cette configuration. Il a fourni ses arguments de ligne de commande llama.cpp après les tests :

-ngl 99 ^
--n-cpu-moe 40 ^
-c 192000 ^
-t 12 ^
-tb 16 ^
-b 4096 ^
--ubatch-size 2048 ^
--flash-attn on ^
--cache-type-k q8_0 ^
--cache-type-v q8_0 ^
--mlock

Intégration dans le flux de travail

Pour son flux de travail agentique, il a trouvé que Cline dans VSCode était l'alternative la plus proche d'Antigravity. Il utilise kat-coder-pro pour le mode Plan et qwen3.5 pour le mode Act dans cette configuration. Le développeur cherche des retours pour savoir si cette configuration locale est meilleure que de rester avec Google Gemini 3 Flash dans Antigravity, notant qu'il privilégie un flux de travail fluide plutôt que les préoccupations de confidentialité.

📖 Read the full source: r/LocalLLaMA