Benchmarks de 12 GB de VRAM: Ejecutando modelos Qwen 3.6 y Gemma 4 en una RTX 4070 Super

✍️ OpenClawRadar📅 Publicado: 30 de abril de 2026🔗 Source

Un usuario de Reddit ha publicado benchmarks de velocidad para ejecutar varios modelos MoE grandes en una RTX 4070 Super de 12 GB (con overclocking del +10%), combinada con una CPU AMD 9800X3D y 64 GB de RAM DDR5-6000. El usuario descarga la visualización a la iGPU para ahorrar VRAM, señalando una penalización de rendimiento del ~10% en caso contrario. La configuración utiliza CUDA 13.1 y la última versión de llama.cpp con la siguiente configuración de hardware:

n-gpu-layers = 999
threads = 8
threads-batch = 16
batch-size = 4096
ubatch-size = 4096
ctx-size = 65536
flash-attn = true

Resultados de los Benchmarks

El usuario probó cuatro modelos mediante cuantizaciones GGUF de Unsloth en VS Code con Cline y KiloCode (sin problemas de llamadas a herramientas). Todas las mediciones están en tokens por segundo (tgs) y procesamiento por segundo (pps).

Qwen3.6-35B-A3B-GGUF Q6_K_XL: 40 tgs, 2100 pps
Qwen3.6-27B-IQ3_XXS: 16 tgs, 1000 pps
Gemma 4 26B-A4B-it-UD-Q8: 26 tgs, 2150 pps
Gemma-4-31B-it-IQ3_XXS: 13-16 tgs, 650 pps

Detalles de Configuración Notables

El usuario compartió configuraciones individuales de los modelos con ajustes específicos. Puntos clave:

Para Qwen3.6-35B-A3B: n-cpu-moe = 35 (descarga 35 expertos MoE a la CPU), cache-type-k = q8_0, cache-type-v = q8_0, swa-full = true, cache-reuse = 512, tamaño de contexto 131072, razonamiento habilitado con presupuesto 8096.
Para Gemma 4 26B: n-cpu-moe = 27, contexto 102400, fit = on con fit-target = 256 y fit-ctx = 32768.
Para Gemma 4 31B: utiliza decodificación especulativa con ngram-mod (spec-type = ngram-mod), n-gpu-layers = 58 (descarga parcial a GPU), cache-type-k = q4_0, no-kv-offload = true.
Todos los modelos usan flash-attn = true y no-mmproj-offload = true.

El modelo preferido del usuario para desarrollo web es Qwen3.6-35B-A3B, elogiando su calidad sin problemas de llamadas a herramientas en extensiones de VS Code.

📖 Lee la fuente completa: r/LocalLLaMA

👀 Ver también

Guías

Configuración Local de Claude Code con Qwen3.5 27B mediante llama.cpp

Un desarrollador comparte su configuración para ejecutar Claude Code localmente usando Qwen3.5 27B con llama.cpp, incluyendo variables de entorno, parámetros del servidor y benchmarks de rendimiento en siete tareas de programación.

14 abr 2026, 19:03 UTC

OpenClawRadar

Guías

Reduzca los costos de token en un 95% con las siete técnicas de optimización de OpenClaw

Una guía completa que detalla siete técnicas para reducir el consumo de tokens de agentes de IA en más del 95%, incluyendo archivos de arranque en estructura de árbol, autocompresión de IA, descarga de modelos locales y tareas de CPU basadas en cron.

19 may 2026, 18:17 UTC

OpenClawRadar

Guías

Creación de un sistema completo de BI con Claude Code y Metabase por menos de $50/mes

Un usuario de Reddit construyó un sistema completo de BI usando Claude Code, BigQuery y Metabase auto-alojado, reemplazando cotizaciones de expertos por $15,000 con 3 días de trabajo y $30 al mes en costos de nube.

9 may 2026, 14:15 UTC

OpenClawRadar

Guías

Soluciona la Automatización Remota del Navegador con la Configuración del Nodo OpenClaw

Usa un nodo local de OpenClaw para evitar dolores de cabeza con CDP/RDP — ejecuta el navegador visible, conserva tu IP y cookies.

1 may 2026, 22:16 UTC

OpenClawRadar