Qwen3.6-35B-A3B em 8GB VRAM: Configuração e Benchmarks

Um usuário do Reddit publicou uma configuração detalhada para executar modelos Qwen3.6-35B-A3B GGUF com ~190k de contexto em um laptop com 8GB de VRAM (RTX 4060) e 32GB de RAM DDR5. Eles relatam 37-43 tok/s de imediato, com ajustes chegando a ~51 tok/s.

Hardware e Modelos

GPU: RTX 4060 8GB VRAM
RAM: 32GB DDR5 5600MHz
SO: Linux (desempenho notado como melhor que Windows)
Modelos testados (quantização Q5):
- mudler/Qwen3.6-35B-A3B-APEX-GGUF – ~40 tok/s a 37 tok/s
- hesamation/Qwen3.6-35B-A3B-Claude-4.6-Opus-Reasoning-Distilled-GGUF – ~43 tok/s a 37 tok/s

Configuração Principal

Usando um fork do llama.cpp com suporte a TurboQuant (turboquant_plus), o usuário executa llama-server com as seguintes flags:

--model "<caminho>" \
--host 0.0.0.0 \
--port 8085 \
--ctx-size 192640 \
--n-gpu-layers 430 \
--n-cpu-moe 35 \
--cache-type-k "turbo4" \
--cache-type-v "turbo4" \
--flash-attn on \
--batch-size 2048 \
--parallel 1 \
--no-mmap \
--mlock \
--ubatch-size 512 \
--threads 6 \
--cont-batching \
--timeout 300 \
--temp 0.2 \
--top-p 0.95 \
--min-p 0.05 \
--top-k 20 \
--metrics \
--chat-template-kwargs '{"preserve_thinking": true}'

Para aumentar a velocidade para ~51 tok/s, ajuste três flags: --ctx-size 192640, --n-gpu-layers 430, --n-cpu-moe 35 (ajuste ligeiramente com base em estabilidade/memória).

Ressalvas

A quantização Q4 é visivelmente pior para raciocínio de contexto longo em comparação com Q5.
--no-mmap + --mlock reduz engasgos e lentidão.
O cache KV TurboQuant é crítico em tamanhos de contexto altos.
A alta largura de banda da RAM (DDR5) é importante para essas velocidades.
O Linux supera significativamente o Windows para essa carga de trabalho.

Para Quem é Isso

Desenvolvedores executando LLMs locais com contextos muito longos (170k+ tokens) em hardware de consumo, especialmente aqueles com 8-12GB de VRAM e RAM de sistema rápida.

📖 Leia a fonte original: r/LocalLLaMA