Exécution de Qwen3.6-35B-A3B avec ~190k de contexte sur 8 Go de VRAM + 32 Go de RAM – Configuration et benchmarks

✍️ OpenClawRadar📅 Publié: May 10, 2026🔗 Source
Exécution de Qwen3.6-35B-A3B avec ~190k de contexte sur 8 Go de VRAM + 32 Go de RAM – Configuration et benchmarks
Ad

Un utilisateur de Reddit a publié une configuration détaillée pour exécuter des modèles GGUF Qwen3.6-35B-A3B avec environ 190k de contexte sur un ordinateur portable doté de 8 Go de VRAM (RTX 4060) et 32 Go de RAM DDR5. Il rapporte 37-43 tok/s sortie de boîte, et avec des ajustements, jusqu'à ~51 tok/s.

Matériel et modèles

  • GPU : RTX 4060 8 Go VRAM
  • RAM : 32 Go DDR5 5600 MHz
  • Système d'exploitation : Linux (les performances sont meilleures que sous Windows)
  • Modèles testés (quantification Q5) :
    • mudler/Qwen3.6-35B-A3B-APEX-GGUF – ~40 tok/s à 37 tok/s
    • hesamation/Qwen3.6-35B-A3B-Claude-4.6-Opus-Reasoning-Distilled-GGUF – ~43 tok/s à 37 tok/s

Configuration clé

En utilisant un fork de llama.cpp avec le support TurboQuant (turboquant_plus), l'utilisateur exécute llama-server avec les indicateurs suivants :

--model "<chemin>" \
--host 0.0.0.0 \
--port 8085 \
--ctx-size 192640 \
--n-gpu-layers 430 \
--n-cpu-moe 35 \
--cache-type-k "turbo4" \
--cache-type-v "turbo4" \
--flash-attn on \
--batch-size 2048 \
--parallel 1 \
--no-mmap \
--mlock \
--ubatch-size 512 \
--threads 6 \
--cont-batching \
--timeout 300 \
--temp 0.2 \
--top-p 0.95 \
--min-p 0.05 \
--top-k 20 \
--metrics \
--chat-template-kwargs '{"preserve_thinking": true}'

Pour atteindre des vitesses d'environ 51 tok/s, ajustez trois indicateurs : --ctx-size 192640, --n-gpu-layers 430, --n-cpu-moe 35 (modifiez légèrement selon la stabilité/la mémoire).

Ad

Précautions

  • La quantification Q4 est nettement moins bonne pour le raisonnement en contexte long par rapport à Q5.
  • --no-mmap + --mlock réduit les ralentissements et les saccades.
  • Le cache KV TurboQuant est essentiel pour les contextes de grande taille.
  • Une bande passante RAM élevée (DDR5) est importante pour ces vitesses.
  • Linux surpasse Windows de manière significative pour cette charge de travail.

À qui cela s'adresse

Développeurs exécutant des LLM locaux avec des contextes très longs (170k+ tokens) sur du matériel grand public, notamment ceux avec 8 à 12 Go de VRAM et une RAM système rapide.

📖 Lire la source complète : r/LocalLLaMA

Ad

👀 See Also

Concevoir des contraintes pour la fiabilité des agents IA de qualité production
Guides

Concevoir des contraintes pour la fiabilité des agents IA de qualité production

Un post Reddit détaille une approche basée sur des contraintes pour utiliser Claude dans des opérations complexes sur des bases de code, mettant l'accent sur l'énumération explicite des modes d'échec, l'exécution par phases avec des points de contrôle et des règles anti-raccourcis pour atteindre zéro build cassé lors de la suppression de 140 fichiers.

OpenClawRadar
Créer 9 compétences Claude pour un studio solo : instructions d'empilage pour un travail réel
Guides

Créer 9 compétences Claude pour un studio solo : instructions d'empilage pour un travail réel

Un développeur solo a créé neuf compétences Claude pour la production vidéo, l'analyse, le SEO, la modélisation financière, et plus encore. Point clé : rédigez les compétences comme des instructions à un collègue expérimenté, pas comme de la documentation. Les compétences se déclenchent automatiquement et s'empilent lorsque les tâches se chevauchent.

OpenClawRadar
Problèmes et solutions d'installation de NemoClaw sous Windows
Guides

Problèmes et solutions d'installation de NemoClaw sous Windows

Les installations de NemoClaw sur Windows échouent avec trois erreurs spécifiques : environnement non pris en charge sur Git Bash, port 18789 déjà utilisé, et échec de la construction Docker lors de l'installation d'OpenClaw. La cause principale est que NemoClaw n'a pas été conçu pour Windows, nécessitant WSL2 Ubuntu pour une configuration réussie.

OpenClawRadar
OpenClaw Intégration : Comment Former Correctement Votre Agent IA
Guides

OpenClaw Intégration : Comment Former Correctement Votre Agent IA

Aucun

r/clawdbot community