Ejecutando Qwen3.6-35B-A3B con ~190k de contexto en 8GB de VRAM + 32GB de RAM – Configuración y benchmarks

✍️ OpenClawRadar📅 Publicado: 10 de mayo de 2026🔗 Source
Ejecutando Qwen3.6-35B-A3B con ~190k de contexto en 8GB de VRAM + 32GB de RAM – Configuración y benchmarks
Ad

Un usuario de Reddit ha publicado una configuración detallada para ejecutar modelos Qwen3.6-35B-A3B GGUF con ~190k de contexto en una laptop con 8 GB de VRAM (RTX 4060) y 32 GB de RAM DDR5. Reporta 37-43 tok/s de serie, y con ajustes alcanza ~51 tok/s.

Hardware y modelos

  • GPU: RTX 4060 8 GB VRAM
  • RAM: 32 GB DDR5 5600MHz
  • SO: Linux (rendimiento mejor que Windows)
  • Modelos probados (cuantización Q5):
    • mudler/Qwen3.6-35B-A3B-APEX-GGUF – ~40 tok/s a 37 tok/s
    • hesamation/Qwen3.6-35B-A3B-Claude-4.6-Opus-Reasoning-Distilled-GGUF – ~43 tok/s a 37 tok/s

Configuración clave

Usando un fork de llama.cpp con soporte para TurboQuant (turboquant_plus), el usuario ejecuta llama-server con las siguientes banderas:

--model "<path>" \
--host 0.0.0.0 \
--port 8085 \
--ctx-size 192640 \
--n-gpu-layers 430 \
--n-cpu-moe 35 \
--cache-type-k "turbo4" \
--cache-type-v "turbo4" \
--flash-attn on \
--batch-size 2048 \
--parallel 1 \
--no-mmap \
--mlock \
--ubatch-size 512 \
--threads 6 \
--cont-batching \
--timeout 300 \
--temp 0.2 \
--top-p 0.95 \
--min-p 0.05 \
--top-k 20 \
--metrics \
--chat-template-kwargs '{"preserve_thinking": true}'

Para alcanzar velocidades de ~51 tok/s, ajusta tres banderas: --ctx-size 192640, --n-gpu-layers 430, --n-cpu-moe 35 (ajustar ligeramente según estabilidad/memoria).

Ad

Advertencias

  • La cuantización Q4 es notablemente peor para razonamiento de contexto largo en comparación con Q5.
  • --no-mmap + --mlock reduce las ralentizaciones.
  • TurboQuant KV cache es crítico en tamaños de contexto grandes.
  • El alto ancho de banda de RAM (DDR5) es importante para estas velocidades.
  • Linux supera significativamente a Windows para esta carga de trabajo.

Para quién es esto

Desarrolladores que ejecutan LLMs locales con contextos muy largos (170k+ tokens) en hardware de consumo, especialmente aquellos con 8-12 GB de VRAM y RAM de sistema rápida.

📖 Leer la fuente original: r/LocalLLaMA

Ad

👀 Ver también