Ejecutando Qwen3.6-35B-A3B con ~190k de contexto en 8GB de VRAM + 32GB de RAM – Configuración y benchmarks

Un usuario de Reddit ha publicado una configuración detallada para ejecutar modelos Qwen3.6-35B-A3B GGUF con ~190k de contexto en una laptop con 8 GB de VRAM (RTX 4060) y 32 GB de RAM DDR5. Reporta 37-43 tok/s de serie, y con ajustes alcanza ~51 tok/s.
Hardware y modelos
- GPU: RTX 4060 8 GB VRAM
- RAM: 32 GB DDR5 5600MHz
- SO: Linux (rendimiento mejor que Windows)
- Modelos probados (cuantización Q5):
mudler/Qwen3.6-35B-A3B-APEX-GGUF– ~40 tok/s a 37 tok/shesamation/Qwen3.6-35B-A3B-Claude-4.6-Opus-Reasoning-Distilled-GGUF– ~43 tok/s a 37 tok/s
Configuración clave
Usando un fork de llama.cpp con soporte para TurboQuant (turboquant_plus), el usuario ejecuta llama-server con las siguientes banderas:
--model "<path>" \
--host 0.0.0.0 \
--port 8085 \
--ctx-size 192640 \
--n-gpu-layers 430 \
--n-cpu-moe 35 \
--cache-type-k "turbo4" \
--cache-type-v "turbo4" \
--flash-attn on \
--batch-size 2048 \
--parallel 1 \
--no-mmap \
--mlock \
--ubatch-size 512 \
--threads 6 \
--cont-batching \
--timeout 300 \
--temp 0.2 \
--top-p 0.95 \
--min-p 0.05 \
--top-k 20 \
--metrics \
--chat-template-kwargs '{"preserve_thinking": true}'
Para alcanzar velocidades de ~51 tok/s, ajusta tres banderas: --ctx-size 192640, --n-gpu-layers 430, --n-cpu-moe 35 (ajustar ligeramente según estabilidad/memoria).
Advertencias
- La cuantización Q4 es notablemente peor para razonamiento de contexto largo en comparación con Q5.
--no-mmap+--mlockreduce las ralentizaciones.- TurboQuant KV cache es crítico en tamaños de contexto grandes.
- El alto ancho de banda de RAM (DDR5) es importante para estas velocidades.
- Linux supera significativamente a Windows para esta carga de trabajo.
Para quién es esto
Desarrolladores que ejecutan LLMs locales con contextos muy largos (170k+ tokens) en hardware de consumo, especialmente aquellos con 8-12 GB de VRAM y RAM de sistema rápida.
📖 Leer la fuente original: r/LocalLLaMA
👀 Ver también

Configuración del Espacio de Trabajo de OpenClaw: Lecciones de Dos Meses de Uso
La experiencia de un desarrollador con OpenClaw muestra que la calidad del espacio de trabajo impacta el rendimiento del agente entre 5 y 10 veces, con orientación específica sobre SOUL.md, AGENTS.md, MEMORY.md, USER.md y la configuración de habilidades.

Recomendaciones de Configuración de LLM Local para OpenClaw
Un usuario comparte su configuración para ejecutar un LLM local con OpenClaw, utilizando un GB10 para el procesamiento de IA y un Mac mini para la instalación de OpenClaw, con detalles específicos del modelo y el servidor.

Repositorio ClaudeBusiness: Patrones para Ejecutar Negocios Reales con Claude Code
Un repositorio de GitHub que recopila patrones prácticos, marcos de trabajo y salvaguardas de más de 35 hilos de Reddit de fundadores que utilizan Claude para gestionar agencias de servicios y negocios SaaS individuales.

Cómo ejecutar OpenClaw completamente local con Ollama
Una publicación de Reddit describe un proceso para ejecutar OpenClaw completamente de manera local sin APIs en la nube ni facturación por token, utilizando Ollama y LLMFit para evaluar modelos locales.