Benchmarks 12 Go VRAM : Exécution des modèles Qwen 3.6 et Gemma 4 sur une RTX 4070 Super

✍️ OpenClawRadar📅 Publié: April 30, 2026🔗 Source
Benchmarks 12 Go VRAM : Exécution des modèles Qwen 3.6 et Gemma 4 sur une RTX 4070 Super
Ad

Un utilisateur de Reddit a publié des benchmarks de vitesse pour l'exécution de plusieurs grands modèles MoE sur une RTX 4070 Super de 12 Go (avec +10% d'overclocking), couplée à un CPU AMD 9800X3D et 64 Go de RAM DDR5-6000. L'utilisateur décharge l'affichage sur le GPU intégré pour économiser de la VRAM, notant une pénalité de performance d'environ 10% dans le cas contraire. La configuration utilise CUDA 13.1 et la dernière version de llama.cpp avec la configuration matérielle suivante :

n-gpu-layers = 999
threads = 8
threads-batch = 16
batch-size = 4096
ubatch-size = 4096
ctx-size = 65536
flash-attn = true

Résultats des benchmarks

L'utilisateur a testé quatre modèles via les quantifications Unsloth GGUF dans VS Code avec Cline et KiloCode (aucun problème d'appel d'outil). Toutes les mesures sont en tokens par seconde (tgs) et en traitement par seconde (pps).

  • Qwen3.6-35B-A3B-GGUF Q6_K_XL : 40 tgs, 2100 pps
  • Qwen3.6-27B-IQ3_XXS : 16 tgs, 1000 pps
  • Gemma 4 26B-A4B-it-UD-Q8 : 26 tgs, 2150 pps
  • Gemma-4-31B-it-IQ3_XXS : 13-16 tgs, 650 pps
Ad

Détails notables de la configuration

L'utilisateur a partagé les configurations individuelles des modèles avec des réglages spécifiques. Points clés :

  • Pour Qwen3.6-35B-A3B : n-cpu-moe = 35 (décharge 35 experts MoE sur le CPU), cache-type-k = q8_0, cache-type-v = q8_0, swa-full = true, cache-reuse = 512, taille de contexte 131072, raisonnement activé avec budget 8096.
  • Pour Gemma 4 26B : n-cpu-moe = 27, contexte 102400, fit = on avec fit-target = 256 et fit-ctx = 32768.
  • Pour Gemma 4 31B : utilise le décodage spéculatif avec ngram-mod (spec-type = ngram-mod), n-gpu-layers = 58 (déchargement partiel sur GPU), cache-type-k = q4_0, no-kv-offload = true.
  • Tous les modèles utilisent flash-attn = true et no-mmproj-offload = true.

Le modèle préféré de l'utilisateur pour le développement web est Qwen3.6-35B-A3B, louant sa qualité sans problème d'appel d'outil dans les extensions VS Code.

📖 Lire la source complète : r/LocalLLaMA

Ad

👀 See Also