Otimizando Qwen 3.6 27B/35B em RTX 3090: Flags, Quantização e Roteamento Automático

✍️ OpenClawRadar📅 Publicado: May 5, 2026🔗 Source
Otimizando Qwen 3.6 27B/35B em RTX 3090: Flags, Quantização e Roteamento Automático
Ad

Um desenvolvedor executando modelos Qwen 3.6 localmente em uma RTX 3090 (24GB VRAM), Ryzen 5700X, 64GB RAM, Windows 11, está enfrentando problemas de desempenho e confiabilidade. Eles estão usando o llama-server com flags personalizadas e buscando conselhos sobre escolha de quant, throughput e roteamento automático de modelos.

Comandos e Quantizações

35B (UD Q4_K_M):

llama-server.exe -m "path\Qwen3.6-35B-A3B-UD-Q4_K_M.gguf" -ngl 99 -c 131072 -np 2 -fa on -ctk f16 -ctv f16 -b 2048 -ub 512 -t 8 --mlock -rea on --reasoning-budget 2048 --reasoning-format deepseek --jinja --metrics --slots --port 8081 --host 0.0.0.0

27B (UD Q4_K_XL):

llama-server.exe -m "path\Qwen3.6-27B-UD-Q4_K_XL.gguf" -ngl 99 -c 196608 -np 1 -fa on -ctk q8_0 -ctv q8_0 -b 2048 -ub 512 -t 8 --no-mmap -rea on --reasoning-budget -1 --reasoning-format deepseek --jinja --metrics --slots --port 8081 --host 0.0.0.0
Ad

Problemas Relatados

  • 35B muito lento – até tarefas iterativas simples parecem inutilizáveis.
  • 27B mais rápido, mas não confiável – a saída de código quebra; tarefas simples podem levar de 20 a 30 minutos.
  • Troca manual de modelo – precisa matar o servidor, colar novo comando, recarregar o modelo.

Perguntas Específicas

  • As flags são subótimas? (ex.: tamanho do contexto, tamanho do lote, tipo de cache)
  • Qual quant/modelo oferece o melhor equilíbrio entre velocidade e precisão de codificação em 24GB VRAM?
  • Como alternar automaticamente os modelos por requisição, ou manter vários modelos aquecidos e rotear?

Contexto

O usuário executa o agente Hermes em um Raspberry Pi 5 para scraping e automação, e codificação local com OpenCode/QwenCode. Eles querem uma configuração que não exija reinicializações manuais do servidor.

📖 Leia a fonte completa: r/LocalLLaMA

Ad

👀 See Also

Compreendendo a Arquitetura de Agentes de IA: Camadas Determinísticas vs Probabilísticas
Guides

Compreendendo a Arquitetura de Agentes de IA: Camadas Determinísticas vs Probabilísticas

Um usuário do Reddit compartilha um modelo mental para sistemas de agentes de IA que separa camadas determinísticas (scripts, comandos, APIs) de camadas probabilísticas (raciocínio e decisões do LLM). A ideia principal: transferir o máximo de trabalho possível para o lado determinístico.

OpenClawRadar
Corrigindo o inchaço de prompts e loops de resposta lentos no OpenClaw
Guides

Corrigindo o inchaço de prompts e loops de resposta lentos no OpenClaw

Usuários enfrentando longos atrasos desde 2026.4.26 podem recuperar desempenho reduzindo o inchaço do contexto: corte arquivos sempre injetados, limite habilidades visíveis e evite colar saídas enormes de ferramentas no chat principal.

OpenClawRadar
Claude Code Skills vs. Custom Agents: Um Modelo Mental Baseado na Consistência de Tarefas
Guides

Claude Code Skills vs. Custom Agents: Um Modelo Mental Baseado na Consistência de Tarefas

Um usuário do Reddit esclarece a distinção entre as habilidades do Claude Code e os agentes personalizados: as habilidades executam os mesmos passos todas as vezes, enquanto os agentes personalizados exigem raciocínio e adaptação. A postagem também aborda subagentes paralelos, delegação, hooks e blocos de construção.

OpenClawRadar
Mapas de Fluxo: Aprendendo a Integral de um Modelo de Difusão para Amostragem Mais Rápida
Guides

Mapas de Fluxo: Aprendendo a Integral de um Modelo de Difusão para Amostragem Mais Rápida

Sander Dieleman explica os mapas de fluxo — redes neurais que preveem diretamente a integral da EDO de um modelo de difusão, permitindo amostragem mais rápida, aprendizado baseado em recompensa e controlabilidade.

OpenClawRadar