Benchmarks de 12 GB de VRAM: Ejecutando modelos Qwen 3.6 y Gemma 4 en una RTX 4070 Super

✍️ OpenClawRadar📅 Publicado: 30 de abril de 2026🔗 Source
Benchmarks de 12 GB de VRAM: Ejecutando modelos Qwen 3.6 y Gemma 4 en una RTX 4070 Super
Ad

Un usuario de Reddit ha publicado benchmarks de velocidad para ejecutar varios modelos MoE grandes en una RTX 4070 Super de 12 GB (con overclocking del +10%), combinada con una CPU AMD 9800X3D y 64 GB de RAM DDR5-6000. El usuario descarga la visualización a la iGPU para ahorrar VRAM, señalando una penalización de rendimiento del ~10% en caso contrario. La configuración utiliza CUDA 13.1 y la última versión de llama.cpp con la siguiente configuración de hardware:

n-gpu-layers = 999
threads = 8
threads-batch = 16
batch-size = 4096
ubatch-size = 4096
ctx-size = 65536
flash-attn = true

Resultados de los Benchmarks

El usuario probó cuatro modelos mediante cuantizaciones GGUF de Unsloth en VS Code con Cline y KiloCode (sin problemas de llamadas a herramientas). Todas las mediciones están en tokens por segundo (tgs) y procesamiento por segundo (pps).

  • Qwen3.6-35B-A3B-GGUF Q6_K_XL: 40 tgs, 2100 pps
  • Qwen3.6-27B-IQ3_XXS: 16 tgs, 1000 pps
  • Gemma 4 26B-A4B-it-UD-Q8: 26 tgs, 2150 pps
  • Gemma-4-31B-it-IQ3_XXS: 13-16 tgs, 650 pps
Ad

Detalles de Configuración Notables

El usuario compartió configuraciones individuales de los modelos con ajustes específicos. Puntos clave:

  • Para Qwen3.6-35B-A3B: n-cpu-moe = 35 (descarga 35 expertos MoE a la CPU), cache-type-k = q8_0, cache-type-v = q8_0, swa-full = true, cache-reuse = 512, tamaño de contexto 131072, razonamiento habilitado con presupuesto 8096.
  • Para Gemma 4 26B: n-cpu-moe = 27, contexto 102400, fit = on con fit-target = 256 y fit-ctx = 32768.
  • Para Gemma 4 31B: utiliza decodificación especulativa con ngram-mod (spec-type = ngram-mod), n-gpu-layers = 58 (descarga parcial a GPU), cache-type-k = q4_0, no-kv-offload = true.
  • Todos los modelos usan flash-attn = true y no-mmproj-offload = true.

El modelo preferido del usuario para desarrollo web es Qwen3.6-35B-A3B, elogiando su calidad sin problemas de llamadas a herramientas en extensiones de VS Code.

📖 Lee la fuente completa: r/LocalLLaMA

Ad

👀 Ver también

Límites de Tasa de la API Claude: Ventanas de Zona Horaria, Gestión de Contexto y Sobrecarga de MCP
Guías

Límites de Tasa de la API Claude: Ventanas de Zona Horaria, Gestión de Contexto y Sobrecarga de MCP

El análisis de los límites de tasa de la API de Claude revela restricciones más estrictas durante las horas pico (5am-11am PT / 8am-2pm ET en días laborables), donde la gestión del contexto y el uso del servidor MCP impactan significativamente el consumo de tokens. Las estrategias prácticas incluyen trabajar fuera de las ventanas pico, iniciar conversaciones nuevas para tareas diferentes y auditar las integraciones MCP.

OpenClawRadar
Desarrollador comparte 25 prompts probados de Claude para flujos de trabajo de desarrollo SaaS
Guías

Desarrollador comparte 25 prompts probados de Claude para flujos de trabajo de desarrollo SaaS

Un desarrollador ha compartido 25 prompts específicos que utiliza diariamente para el desarrollo de SaaS, cubriendo arquitectura backend, diseño de API, textos frontend, documentación de producto y tareas de lanzamiento al mercado. Los prompts están diseñados para ahorrar tiempo en tareas repetitivas como revisión de código, generación de documentación y pruebas de casos límite.

OpenClawRadar
Ejecutando OmniCoder-9B localmente con detalles de configuración de llama.cpp
Guías

Ejecutando OmniCoder-9B localmente con detalles de configuración de llama.cpp

Un desarrollador logró un puntaje promedio del 96.7% en HumanEval con OmniCoder-9B en hardware de gama media usando banderas específicas de llama.cpp, incluyendo --reasoning-budget 0 para desactivar la salida de cadena de pensamiento. La configuración utilizó un modelo cuantizado Q6_K ejecutándose en una RTX 3080 con 10GB de VRAM.

OpenClawRadar
Recomendaciones de Configuración de LLM Local para OpenClaw
Guías

Recomendaciones de Configuración de LLM Local para OpenClaw

Un usuario comparte su configuración para ejecutar un LLM local con OpenClaw, utilizando un GB10 para el procesamiento de IA y un Mac mini para la instalación de OpenClaw, con detalles específicos del modelo y el servidor.

OpenClawRadar