Otimizando Qwen 3.6 27B/35B em RTX 3090: Flags, Quantização e Roteamento Automático

Um desenvolvedor executando modelos Qwen 3.6 localmente em uma RTX 3090 (24GB VRAM), Ryzen 5700X, 64GB RAM, Windows 11, está enfrentando problemas de desempenho e confiabilidade. Eles estão usando o llama-server com flags personalizadas e buscando conselhos sobre escolha de quant, throughput e roteamento automático de modelos.
Comandos e Quantizações
35B (UD Q4_K_M):
llama-server.exe -m "path\Qwen3.6-35B-A3B-UD-Q4_K_M.gguf" -ngl 99 -c 131072 -np 2 -fa on -ctk f16 -ctv f16 -b 2048 -ub 512 -t 8 --mlock -rea on --reasoning-budget 2048 --reasoning-format deepseek --jinja --metrics --slots --port 8081 --host 0.0.0.027B (UD Q4_K_XL):
llama-server.exe -m "path\Qwen3.6-27B-UD-Q4_K_XL.gguf" -ngl 99 -c 196608 -np 1 -fa on -ctk q8_0 -ctv q8_0 -b 2048 -ub 512 -t 8 --no-mmap -rea on --reasoning-budget -1 --reasoning-format deepseek --jinja --metrics --slots --port 8081 --host 0.0.0.0Problemas Relatados
- 35B muito lento – até tarefas iterativas simples parecem inutilizáveis.
- 27B mais rápido, mas não confiável – a saída de código quebra; tarefas simples podem levar de 20 a 30 minutos.
- Troca manual de modelo – precisa matar o servidor, colar novo comando, recarregar o modelo.
Perguntas Específicas
- As flags são subótimas? (ex.: tamanho do contexto, tamanho do lote, tipo de cache)
- Qual quant/modelo oferece o melhor equilíbrio entre velocidade e precisão de codificação em 24GB VRAM?
- Como alternar automaticamente os modelos por requisição, ou manter vários modelos aquecidos e rotear?
Contexto
O usuário executa o agente Hermes em um Raspberry Pi 5 para scraping e automação, e codificação local com OpenCode/QwenCode. Eles querem uma configuração que não exija reinicializações manuais do servidor.
📖 Leia a fonte completa: r/LocalLLaMA
👀 See Also

Compreendendo a Arquitetura de Agentes de IA: Camadas Determinísticas vs Probabilísticas
Um usuário do Reddit compartilha um modelo mental para sistemas de agentes de IA que separa camadas determinísticas (scripts, comandos, APIs) de camadas probabilísticas (raciocínio e decisões do LLM). A ideia principal: transferir o máximo de trabalho possível para o lado determinístico.

Corrigindo o inchaço de prompts e loops de resposta lentos no OpenClaw
Usuários enfrentando longos atrasos desde 2026.4.26 podem recuperar desempenho reduzindo o inchaço do contexto: corte arquivos sempre injetados, limite habilidades visíveis e evite colar saídas enormes de ferramentas no chat principal.

Claude Code Skills vs. Custom Agents: Um Modelo Mental Baseado na Consistência de Tarefas
Um usuário do Reddit esclarece a distinção entre as habilidades do Claude Code e os agentes personalizados: as habilidades executam os mesmos passos todas as vezes, enquanto os agentes personalizados exigem raciocínio e adaptação. A postagem também aborda subagentes paralelos, delegação, hooks e blocos de construção.

Mapas de Fluxo: Aprendendo a Integral de um Modelo de Difusão para Amostragem Mais Rápida
Sander Dieleman explica os mapas de fluxo — redes neurais que preveem diretamente a integral da EDO de um modelo de difusão, permitindo amostragem mais rápida, aprendizado baseado em recompensa e controlabilidade.