Benchmarks 12 Go VRAM : Exécution des modèles Qwen 3.6 et Gemma 4 sur une RTX 4070 Super

Un utilisateur de Reddit a publié des benchmarks de vitesse pour l'exécution de plusieurs grands modèles MoE sur une RTX 4070 Super de 12 Go (avec +10% d'overclocking), couplée à un CPU AMD 9800X3D et 64 Go de RAM DDR5-6000. L'utilisateur décharge l'affichage sur le GPU intégré pour économiser de la VRAM, notant une pénalité de performance d'environ 10% dans le cas contraire. La configuration utilise CUDA 13.1 et la dernière version de llama.cpp avec la configuration matérielle suivante :
n-gpu-layers = 999
threads = 8
threads-batch = 16
batch-size = 4096
ubatch-size = 4096
ctx-size = 65536
flash-attn = true
Résultats des benchmarks
L'utilisateur a testé quatre modèles via les quantifications Unsloth GGUF dans VS Code avec Cline et KiloCode (aucun problème d'appel d'outil). Toutes les mesures sont en tokens par seconde (tgs) et en traitement par seconde (pps).
- Qwen3.6-35B-A3B-GGUF Q6_K_XL : 40 tgs, 2100 pps
- Qwen3.6-27B-IQ3_XXS : 16 tgs, 1000 pps
- Gemma 4 26B-A4B-it-UD-Q8 : 26 tgs, 2150 pps
- Gemma-4-31B-it-IQ3_XXS : 13-16 tgs, 650 pps
Détails notables de la configuration
L'utilisateur a partagé les configurations individuelles des modèles avec des réglages spécifiques. Points clés :
- Pour Qwen3.6-35B-A3B :
n-cpu-moe = 35(décharge 35 experts MoE sur le CPU),cache-type-k = q8_0,cache-type-v = q8_0,swa-full = true,cache-reuse = 512, taille de contexte 131072, raisonnement activé avec budget 8096. - Pour Gemma 4 26B :
n-cpu-moe = 27, contexte 102400,fit = onavecfit-target = 256etfit-ctx = 32768. - Pour Gemma 4 31B : utilise le décodage spéculatif avec
ngram-mod(spec-type = ngram-mod),n-gpu-layers = 58(déchargement partiel sur GPU),cache-type-k = q4_0,no-kv-offload = true. - Tous les modèles utilisent
flash-attn = trueetno-mmproj-offload = true.
Le modèle préféré de l'utilisateur pour le développement web est Qwen3.6-35B-A3B, louant sa qualité sans problème d'appel d'outil dans les extensions VS Code.
📖 Lire la source complète : r/LocalLLaMA
👀 See Also

Exécution de Qwen3.6 27B et 35B sur 6 Go de VRAM avec ik_llama : configurations pratiques et benchmarks
Un utilisateur partage des configurations ik_llama détaillées et des métriques de performance pour exécuter les modèles Qwen3.6 27B et 35B A3B sur un RTX2060 mobile (6 Go VRAM, 32 Go RAM), avec des vitesses de préremplissage de 40-100 t/s et une génération jusqu'à 11 t/s.

DeepSeek-V4-Flash W4A16+FP8 avec auto-spéculation MTP : 85 tok/s sur 2x RTX PRO 6000 Max-Q
DeepSeek-V4-Flash quantifié en W4A16+FP8 atteint 85,52 tok/s avec un contexte de 524k sur 2× RTX PRO 6000 Max-Q en utilisant un vLLM patché avec une tête MTP rétrofitée, contre 52,85 tok/s de référence.

Optimisation de la configuration OpenClaw : modèles pratiques et perspectives
Les utilisateurs d'OpenClaw partagent des configurations efficaces, comme l'utilisation de cron pour les tâches planifiées et la création de sous-agents spécialisés, afin d'améliorer les fonctionnalités et l'efficacité des coûts.

OpenClaw : trois voies vers un agent IA (sans nécessiter de terminal)
L'installateur en une ligne d'OpenClaw, les plates-formes gérées et les modèles locaux ollama suppriment la barrière technique. Choisissez votre voie et commencez par les tâches ennuyeuses.