Qwen3.6-35B-A3B en 8GB VRAM: Configuración y benchmarks (192k contexto)

Un usuario de Reddit ha publicado una configuración detallada para ejecutar modelos Qwen3.6-35B-A3B GGUF con ~190k de contexto en una laptop con 8 GB de VRAM (RTX 4060) y 32 GB de RAM DDR5. Reporta 37-43 tok/s de serie, y con ajustes alcanza ~51 tok/s.

Hardware y modelos

GPU: RTX 4060 8 GB VRAM
RAM: 32 GB DDR5 5600MHz
SO: Linux (rendimiento mejor que Windows)
Modelos probados (cuantización Q5):
- mudler/Qwen3.6-35B-A3B-APEX-GGUF – ~40 tok/s a 37 tok/s
- hesamation/Qwen3.6-35B-A3B-Claude-4.6-Opus-Reasoning-Distilled-GGUF – ~43 tok/s a 37 tok/s

Configuración clave

Usando un fork de llama.cpp con soporte para TurboQuant (turboquant_plus), el usuario ejecuta llama-server con las siguientes banderas:

--model "<path>" \
--host 0.0.0.0 \
--port 8085 \
--ctx-size 192640 \
--n-gpu-layers 430 \
--n-cpu-moe 35 \
--cache-type-k "turbo4" \
--cache-type-v "turbo4" \
--flash-attn on \
--batch-size 2048 \
--parallel 1 \
--no-mmap \
--mlock \
--ubatch-size 512 \
--threads 6 \
--cont-batching \
--timeout 300 \
--temp 0.2 \
--top-p 0.95 \
--min-p 0.05 \
--top-k 20 \
--metrics \
--chat-template-kwargs '{"preserve_thinking": true}'

Para alcanzar velocidades de ~51 tok/s, ajusta tres banderas: --ctx-size 192640, --n-gpu-layers 430, --n-cpu-moe 35 (ajustar ligeramente según estabilidad/memoria).

Advertencias

La cuantización Q4 es notablemente peor para razonamiento de contexto largo en comparación con Q5.
--no-mmap + --mlock reduce las ralentizaciones.
TurboQuant KV cache es crítico en tamaños de contexto grandes.
El alto ancho de banda de RAM (DDR5) es importante para estas velocidades.
Linux supera significativamente a Windows para esta carga de trabajo.

Para quién es esto

Desarrolladores que ejecutan LLMs locales con contextos muy largos (170k+ tokens) en hardware de consumo, especialmente aquellos con 8-12 GB de VRAM y RAM de sistema rápida.

📖 Leer la fuente original: r/LocalLLaMA

Ejecutando Qwen3.6-35B-A3B con ~190k de contexto en 8GB de VRAM + 32GB de RAM – Configuración y benchmarks

Hardware y modelos

Configuración clave

Advertencias

Para quién es esto

👀 Ver también

Consejos de configuración de OpenClaw desde la experiencia de un usuario: MCP de Gmail, banderas de perfil y problemas de red.

OpenClaw Mega Cheatsheet: Tu puerta de entrada a la maestría en codificación de IA.

Glosario práctico de terminología de agentes de IA (Arnés, Andamio, Agente, etc.)

Correcciones de Qwen 3.5 en la Llamada de Herramientas para Uso Agéntico: Estado del Servidor y Soluciones en el Lado del Cliente