Otimizando Qwen 3.6 27B/35B em RTX 3090: Flags, Quantização e Roteamento Automático

✍️ OpenClawRadar📅 Publicado: May 5, 2026🔗 Source

Um desenvolvedor executando modelos Qwen 3.6 localmente em uma RTX 3090 (24GB VRAM), Ryzen 5700X, 64GB RAM, Windows 11, está enfrentando problemas de desempenho e confiabilidade. Eles estão usando o llama-server com flags personalizadas e buscando conselhos sobre escolha de quant, throughput e roteamento automático de modelos.

Comandos e Quantizações

35B (UD Q4_K_M):

llama-server.exe -m "path\Qwen3.6-35B-A3B-UD-Q4_K_M.gguf" -ngl 99 -c 131072 -np 2 -fa on -ctk f16 -ctv f16 -b 2048 -ub 512 -t 8 --mlock -rea on --reasoning-budget 2048 --reasoning-format deepseek --jinja --metrics --slots --port 8081 --host 0.0.0.0

27B (UD Q4_K_XL):

llama-server.exe -m "path\Qwen3.6-27B-UD-Q4_K_XL.gguf" -ngl 99 -c 196608 -np 1 -fa on -ctk q8_0 -ctv q8_0 -b 2048 -ub 512 -t 8 --no-mmap -rea on --reasoning-budget -1 --reasoning-format deepseek --jinja --metrics --slots --port 8081 --host 0.0.0.0

Problemas Relatados

35B muito lento – até tarefas iterativas simples parecem inutilizáveis.
27B mais rápido, mas não confiável – a saída de código quebra; tarefas simples podem levar de 20 a 30 minutos.
Troca manual de modelo – precisa matar o servidor, colar novo comando, recarregar o modelo.

Perguntas Específicas

As flags são subótimas? (ex.: tamanho do contexto, tamanho do lote, tipo de cache)
Qual quant/modelo oferece o melhor equilíbrio entre velocidade e precisão de codificação em 24GB VRAM?
Como alternar automaticamente os modelos por requisição, ou manter vários modelos aquecidos e rotear?

Contexto

O usuário executa o agente Hermes em um Raspberry Pi 5 para scraping e automação, e codificação local com OpenCode/QwenCode. Eles querem uma configuração que não exija reinicializações manuais do servidor.

📖 Leia a fonte completa: r/LocalLLaMA

👀 See Also

Guides

Os modelos Qwen3.x falham silenciosamente no OpenClaw devido a incompatibilidade no formato de saída de streaming.

Os modelos Qwen3.x no modo de streaming enviam a saída para o campo 'reasoning' em vez de 'content', fazendo com que o OpenClaw silenciosamente recorra aos modelos de fallback. Um proxy que traduz os formatos de API e injeta 'think: false' corrige o problema, permitindo a avaliação completa de chamadas de ferramentas.

Mar 12, 2026, 10:45 PM UTC

OpenClawRadar

Guides

Dificuldades de instalação do OpenClaw no Windows 11 e como superá-las

Um usuário detalha três obstáculos específicos ao instalar o OpenClaw em uma máquina nova com Windows 11: política de execução do PowerShell, bloqueio do Windows Defender e dependências ausentes como Node.js e Git.

Mar 18, 2026, 11:45 PM UTC

OpenClawRadar

Guides

Configuração do Espaço de Trabalho OpenClaw: Lições de Dois Meses de Uso

A experiência de um desenvolvedor com o OpenClaw mostra que a qualidade do espaço de trabalho impacta o desempenho do agente em 5 a 10 vezes, com orientações específicas sobre SOUL.md, AGENTS.md, MEMORY.md, USER.md e configuração de habilidades.

Apr 17, 2026, 01:23 PM UTC

OpenClawRadar

Guides

Configurando o OpenClaw para Comunicação Suave entre Agentes

Um usuário do Reddit compartilha configurações específicas para o OpenClaw que reduzem os tempos limite na comunicação entre agentes, incluindo configurações de visibilidade de ferramentas, diretivas de memória e soluções alternativas para a limitação ANNOUNCE_SKIP.

Apr 21, 2026, 10:28 AM UTC

OpenClawRadar