Qwen3.5-35B-A3B-UD-Q6_K_XL: Teste em Produção com 80tps

Um desenvolvedor no r/LocalLLaMA compartilhou resultados detalhados de testes do modelo Qwen3.5-35B-A3B-UD-Q6_K_XL em cenários de desenvolvimento de produção. O usuário conduziu tanto testes de benchmark quanto aplicação prática em projetos reais de clientes.

Benchmarks de Desempenho

O modelo alcançou pontuações de benchmark de 1504pp2048 e 47.71 tg256. A velocidade de geração de tokens foi sólida quando distribuída entre duas GPUs, e aumentou para 80 tokens por segundo (tps) quando executado em uma única GPU.

Metodologia de Testes em Produção

O desenvolvedor testou o modelo em cinco projetos diferentes usando Git Worktrees para reverter para especificações e recursos conhecidos. As especificações para esses testes foram geradas pelo Claude, com o desenvolvedor usando um plano Max Pro no último ano.

Testado em projetos JavaScript, Go e Rust
Usou Git Worktrees para controle de versão durante os testes
A maioria dos "bugs" exigiu apenas ajustes de 5 minutos ou pôde ser corrigida com um segundo prompt
Comparou a experiência com o uso do Sonnet 4

Resultados Práticos e Implicações de Negócios

O desenvolvedor relatou que o Qwen3.5 "acertou em cheio" para o trabalho que realiza, observando especialmente o forte desempenho em projetos Go e Rust. Isso levou a uma consideração séria de mudar de modelos baseados em API para uma abordagem híbrida: usar modelos SOTA via API para geração de especificações e revisões, enquanto usa modelos locais para trabalho de desenvolvimento.

Os testes levantaram questões sobre investimento em hardware versus custos de assinatura. O desenvolvedor já gastou US$ 2.000 no Claude Pro Max desde junho de 2025, com custos potenciais chegando a US$ 6.800 até 2027 se as assinaturas continuarem. Isso levou à consideração de comprar um RTX 6000 Pro como investimento de negócios.

O desenvolvedor vinha usando o Qwen Coder para conclusão de tabulação anteriormente, mas descobriu que o Qwen3.5 eleva as capacidades dos modelos locais a um novo nível para uso em produção.

📖 Leia a fonte completa: r/LocalLLaMA

Qwen3.5-35B-A3B-UD-Q6_K_XL Testado em Fluxos de Trabalho de Desenvolvimento de Produção

Benchmarks de Desempenho

Metodologia de Testes em Produção

Resultados Práticos e Implicações de Negócios

👀 See Also

Agentes de Codificação Paralela com tmux e Especificações em Markdown

Anunciando o Flyto Indexer: Refatoração de Código com IA Aprimorada e Análise de Dependência de Código-Fonte

Claude Code v2.1.126: Seletor de Modelo, Limpeza de Projeto, Correções no OAuth e Melhorias de Segurança

Operador Zot Chrome: Deixe seu Agente de IA do Terminal Controlar o Navegador pelo Painel Lateral