Benchmarks 12 Go VRAM : Exécution des modèles Qwen 3.6 et Gemma 4 sur une RTX 4070 Super

✍️ OpenClawRadar📅 Publié: April 30, 2026🔗 Source

Un utilisateur de Reddit a publié des benchmarks de vitesse pour l'exécution de plusieurs grands modèles MoE sur une RTX 4070 Super de 12 Go (avec +10% d'overclocking), couplée à un CPU AMD 9800X3D et 64 Go de RAM DDR5-6000. L'utilisateur décharge l'affichage sur le GPU intégré pour économiser de la VRAM, notant une pénalité de performance d'environ 10% dans le cas contraire. La configuration utilise CUDA 13.1 et la dernière version de llama.cpp avec la configuration matérielle suivante :

n-gpu-layers = 999
threads = 8
threads-batch = 16
batch-size = 4096
ubatch-size = 4096
ctx-size = 65536
flash-attn = true

Résultats des benchmarks

L'utilisateur a testé quatre modèles via les quantifications Unsloth GGUF dans VS Code avec Cline et KiloCode (aucun problème d'appel d'outil). Toutes les mesures sont en tokens par seconde (tgs) et en traitement par seconde (pps).

Qwen3.6-35B-A3B-GGUF Q6_K_XL : 40 tgs, 2100 pps
Qwen3.6-27B-IQ3_XXS : 16 tgs, 1000 pps
Gemma 4 26B-A4B-it-UD-Q8 : 26 tgs, 2150 pps
Gemma-4-31B-it-IQ3_XXS : 13-16 tgs, 650 pps

Détails notables de la configuration

L'utilisateur a partagé les configurations individuelles des modèles avec des réglages spécifiques. Points clés :

Pour Qwen3.6-35B-A3B : n-cpu-moe = 35 (décharge 35 experts MoE sur le CPU), cache-type-k = q8_0, cache-type-v = q8_0, swa-full = true, cache-reuse = 512, taille de contexte 131072, raisonnement activé avec budget 8096.
Pour Gemma 4 26B : n-cpu-moe = 27, contexte 102400, fit = on avec fit-target = 256 et fit-ctx = 32768.
Pour Gemma 4 31B : utilise le décodage spéculatif avec ngram-mod (spec-type = ngram-mod), n-gpu-layers = 58 (déchargement partiel sur GPU), cache-type-k = q4_0, no-kv-offload = true.
Tous les modèles utilisent flash-attn = true et no-mmproj-offload = true.

Le modèle préféré de l'utilisateur pour le développement web est Qwen3.6-35B-A3B, louant sa qualité sans problème d'appel d'outil dans les extensions VS Code.

📖 Lire la source complète : r/LocalLLaMA

👀 See Also

Guides

Problèmes d'installation d'OpenClaw sur Windows 11 et comment les surmonter

Un utilisateur détaille trois obstacles spécifiques lors de l'installation d'OpenClaw sur une machine Windows 11 neuve : la politique d'exécution de PowerShell, le blocage par Windows Defender et les dépendances manquantes comme Node.js et Git.

Mar 18, 2026, 11:45 PM UTC

OpenClawRadar

Guides

Projet OpenClaw Système d'exploitation : Cadre de gestion multi-projets

Un framework qui isole les projets avec des répertoires standardisés, utilise cron pour l'automatisation au lieu d'agents pour les tâches prévisibles, et met en œuvre des protocoles de sauvegarde obligatoires pour réduire l'utilisation de tokens et améliorer la cohérence d'exécution.

Mar 23, 2026, 03:45 PM UTC

OpenClawRadar

Guides

Correction des erreurs 'Navigate Unsupported' et des plugins navigateur dans OpenClaw auto-hébergé sur Docker

Correction étape par étape pour les erreurs de permission EACCES, l'absence de Playwright et de binaires Chromium lors de l'auto-hébergement d'OpenClaw avec Docker sur un VPS comme Hostinger.

May 8, 2026, 02:15 PM UTC

OpenClawRadar

Guides

Comment un agent inactif brûlait 50 millions de jetons par jour – et comment y remédier

Un agent OpenClaw inactif brûlait 50 millions de tokens par jour à cause de pings de heartbeat avec une session gonflée. Un utilisateur de Reddit explique comment il a tracé la fuite et l'a corrigée avec des changements de configuration.

Jun 30, 2026, 12:18 AM UTC

OpenClawRadar