Rodando Qwen3.6-35B-A3B com ~190k de Contexto em 8GB VRAM + 32GB RAM – Configuração e Benchmarks

✍️ OpenClawRadar📅 Publicado: May 10, 2026🔗 Source
Rodando Qwen3.6-35B-A3B com ~190k de Contexto em 8GB VRAM + 32GB RAM – Configuração e Benchmarks
Ad

Um usuário do Reddit publicou uma configuração detalhada para executar modelos Qwen3.6-35B-A3B GGUF com ~190k de contexto em um laptop com 8GB de VRAM (RTX 4060) e 32GB de RAM DDR5. Eles relatam 37-43 tok/s de imediato, com ajustes chegando a ~51 tok/s.

Hardware e Modelos

  • GPU: RTX 4060 8GB VRAM
  • RAM: 32GB DDR5 5600MHz
  • SO: Linux (desempenho notado como melhor que Windows)
  • Modelos testados (quantização Q5):
    • mudler/Qwen3.6-35B-A3B-APEX-GGUF – ~40 tok/s a 37 tok/s
    • hesamation/Qwen3.6-35B-A3B-Claude-4.6-Opus-Reasoning-Distilled-GGUF – ~43 tok/s a 37 tok/s

Configuração Principal

Usando um fork do llama.cpp com suporte a TurboQuant (turboquant_plus), o usuário executa llama-server com as seguintes flags:

--model "<caminho>" \
--host 0.0.0.0 \
--port 8085 \
--ctx-size 192640 \
--n-gpu-layers 430 \
--n-cpu-moe 35 \
--cache-type-k "turbo4" \
--cache-type-v "turbo4" \
--flash-attn on \
--batch-size 2048 \
--parallel 1 \
--no-mmap \
--mlock \
--ubatch-size 512 \
--threads 6 \
--cont-batching \
--timeout 300 \
--temp 0.2 \
--top-p 0.95 \
--min-p 0.05 \
--top-k 20 \
--metrics \
--chat-template-kwargs '{"preserve_thinking": true}'

Para aumentar a velocidade para ~51 tok/s, ajuste três flags: --ctx-size 192640, --n-gpu-layers 430, --n-cpu-moe 35 (ajuste ligeiramente com base em estabilidade/memória).

Ad

Ressalvas

  • A quantização Q4 é visivelmente pior para raciocínio de contexto longo em comparação com Q5.
  • --no-mmap + --mlock reduz engasgos e lentidão.
  • O cache KV TurboQuant é crítico em tamanhos de contexto altos.
  • A alta largura de banda da RAM (DDR5) é importante para essas velocidades.
  • O Linux supera significativamente o Windows para essa carga de trabalho.

Para Quem é Isso

Desenvolvedores executando LLMs locais com contextos muito longos (170k+ tokens) em hardware de consumo, especialmente aqueles com 8-12GB de VRAM e RAM de sistema rápida.

📖 Leia a fonte original: r/LocalLLaMA

Ad

👀 See Also

12 Modelos de SOUL.md e STYLE.md do OpenClaw com Lições Práticas
Guides

12 Modelos de SOUL.md e STYLE.md do OpenClaw com Lições Práticas

Um desenvolvedor criou 12 modelos de agentes OpenClaw para casos de uso comuns, cada um seguindo a especificação oficial de 4 seções, e identificou lições-chave incluindo a necessidade de STYLE.md para definir padrões de comunicação e a importância de limites específicos em vez de traços de personalidade vagos.

OpenClawRadar
Metodologia para Benchmarking Consistente de LLMs Locais vs na Nuvem
Guides

Metodologia para Benchmarking Consistente de LLMs Locais vs na Nuvem

Um desenvolvedor compartilha uma configuração de medição usando requisições sequenciais e pontuação baseada em regras para comparar modelos locais (via llama.cpp, vLLM, Ollama) com APIs em nuvem (GPT-5.4, Claude Sonnet 4.6, Gemini 3.1 Pro) através de um endpoint unificado como o ZenMux.

OpenClawRadar
Princípios de escrita de habilidades para Claude Code a partir de 159 habilidades de código aberto
Guides

Princípios de escrita de habilidades para Claude Code a partir de 159 habilidades de código aberto

Um desenvolvedor compartilha 10 princípios para escrever habilidades eficazes para o Claude Code, baseados na construção e manutenção de um registro de código aberto com 159 habilidades. Os princípios incluem abordagens práticas como usar pastas em vez de arquivos únicos, adicionar seções de armadilhas e implementar ganchos sob demanda.

OpenClawRadar
Corrigindo erros de 'Navigate Unsupported' e plugins do navegador no OpenClaw auto-hospedado no Docker
Guides

Corrigindo erros de 'Navigate Unsupported' e plugins do navegador no OpenClaw auto-hospedado no Docker

Correção passo a passo para erros de permissão EACCES, falta de Playwright e binários do Chromium ao hospedar o OpenClaw com Docker em um VPS como Hostinger.

OpenClawRadar