Qwen 3.5 35B Fonctionnant sur 8 Go de VRAM avec la configuration llama.cpp

Configuration locale de Qwen 3.5 35B avec VRAM limitée
Un développeur sur r/LocalLLaMA a détaillé sa configuration pour exécuter localement le modèle Qwen 3.5 35B sur du matériel avec 8 Go de VRAM. Il est passé d'Antigravity (avec un plan Google AI Pro) aux LLM locaux après avoir atteint les limites du service cloud.
Spécifications matérielles et du modèle
La configuration utilise un ordinateur portable Lenovo Legion avec un processeur i9-14900HX (avec les cœurs E désactivés dans le BIOS, 32 Go de RAM DDR5) et une carte graphique RTX 4060m avec 8 Go de VRAM. Le modèle spécifique est Qwen 3.5 35B A3B Heretic Opus (Q4_K_M GGUF).
Performances et configuration de llama.cpp
Le développeur rapporte obtenir environ 700 tokens par seconde pour le traitement des prompts et 42 tokens par seconde pour la génération de tokens avec cette configuration. Il a fourni ses arguments de ligne de commande llama.cpp après les tests :
-ngl 99 ^ --n-cpu-moe 40 ^ -c 192000 ^ -t 12 ^ -tb 16 ^ -b 4096 ^ --ubatch-size 2048 ^ --flash-attn on ^ --cache-type-k q8_0 ^ --cache-type-v q8_0 ^ --mlock
Intégration dans le flux de travail
Pour son flux de travail agentique, il a trouvé que Cline dans VSCode était l'alternative la plus proche d'Antigravity. Il utilise kat-coder-pro pour le mode Plan et qwen3.5 pour le mode Act dans cette configuration. Le développeur cherche des retours pour savoir si cette configuration locale est meilleure que de rester avec Google Gemini 3 Flash dans Antigravity, notant qu'il privilégie un flux de travail fluide plutôt que les préoccupations de confidentialité.
📖 Read the full source: r/LocalLLaMA
👀 See Also

Le benchmark MemAware montre que la mémoire des agents basés sur RAG échoue lors de la récupération de contexte implicite.
Le benchmark MemAware évalue si les agents IA peuvent rappeler un contexte passé pertinent lorsque les utilisateurs ne le demandent pas explicitement, révélant que les systèmes de mémoire actuels n'atteignent que 2,8 % de précision sur les requêtes implicites difficiles, contre 0,8 % sans mémoire.

iai-mcp : Un démon local pour une mémoire OpenClaw persistante entre sessions
iai-mcp est un démon open-source qui capture toutes les conversations OpenClaw, les stocke dans trois niveaux de mémoire avec des plongements neuronaux locaux et un chiffrement AES-256, et réinjecte le contexte pertinent lors de nouvelles sessions — rappel textuel >99 %, récupération <100 ms, coût de démarrage de session <3k tokens.

TEMM1E v3.1.0 : Agent IA qui s'auto-affine grâce aux interactions utilisateur
TEMM1E v3.1.0 introduit Eigen-Tune, un système qui capture les interactions des LLM comme données d'entraînement, évalue la qualité à partir du comportement des utilisateurs, et affine les modèles locaux via LoRA sans coût LLM supplémentaire. Testé sur Apple M2, il a corrigé les conversions de température de 72°F = '150°C' à '21,2°C' après 10 conversations.

Hors réseau : Utiliser le matériel téléphonique pour des applications d'IA hors ligne
Off Grid est une application open-source qui utilise le matériel de votre téléphone pour des tâches d'IA hors ligne, comme la génération de texte et la transcription vocale.