Qwen3.5-35B-A3B-UD-Q6_K_XL Testado em Fluxos de Trabalho de Desenvolvimento de Produção

Um desenvolvedor no r/LocalLLaMA compartilhou resultados detalhados de testes do modelo Qwen3.5-35B-A3B-UD-Q6_K_XL em cenários de desenvolvimento de produção. O usuário conduziu tanto testes de benchmark quanto aplicação prática em projetos reais de clientes.
Benchmarks de Desempenho
O modelo alcançou pontuações de benchmark de 1504pp2048 e 47.71 tg256. A velocidade de geração de tokens foi sólida quando distribuída entre duas GPUs, e aumentou para 80 tokens por segundo (tps) quando executado em uma única GPU.
Metodologia de Testes em Produção
O desenvolvedor testou o modelo em cinco projetos diferentes usando Git Worktrees para reverter para especificações e recursos conhecidos. As especificações para esses testes foram geradas pelo Claude, com o desenvolvedor usando um plano Max Pro no último ano.
- Testado em projetos JavaScript, Go e Rust
- Usou Git Worktrees para controle de versão durante os testes
- A maioria dos "bugs" exigiu apenas ajustes de 5 minutos ou pôde ser corrigida com um segundo prompt
- Comparou a experiência com o uso do Sonnet 4
Resultados Práticos e Implicações de Negócios
O desenvolvedor relatou que o Qwen3.5 "acertou em cheio" para o trabalho que realiza, observando especialmente o forte desempenho em projetos Go e Rust. Isso levou a uma consideração séria de mudar de modelos baseados em API para uma abordagem híbrida: usar modelos SOTA via API para geração de especificações e revisões, enquanto usa modelos locais para trabalho de desenvolvimento.
Os testes levantaram questões sobre investimento em hardware versus custos de assinatura. O desenvolvedor já gastou US$ 2.000 no Claude Pro Max desde junho de 2025, com custos potenciais chegando a US$ 6.800 até 2027 se as assinaturas continuarem. Isso levou à consideração de comprar um RTX 6000 Pro como investimento de negócios.
O desenvolvedor vinha usando o Qwen Coder para conclusão de tabulação anteriormente, mas descobriu que o Qwen3.5 eleva as capacidades dos modelos locais a um novo nível para uso em produção.
📖 Leia a fonte completa: r/LocalLLaMA
👀 See Also

Extensão do Chrome Claude para PDF Exporta Conversas Longas com Formatação Preservada
Um desenvolvedor lançou uma extensão gratuita para Chrome chamada Claude to PDF que captura todo o histórico de conversas dos chats da Claude AI e preserva blocos de código, fórmulas matemáticas em LaTeX e formatação de tabelas ao exportar para PDF.

Savant Commander 48B: Um Modelo Personalizado Qwen 3 de Mistura de Especialistas com 12 Modelos Destilados
Savant Commander 48B é um modelo personalizado Qwen 3 Mixture-of-Experts com roteamento codificado manualmente que combina 12 modelos destilados de provedores como Claude, Gemini, OpenAI e Deepseek. Possui contexto de 256K e permite ativação controlada por prompt de modelos destilados específicos.

Red Queen: Um Orquestrador Determinístico que Executa Claude Code como um Pool de Trabalhadores
Red Queen usa uma máquina de estado para orquestrar subprocessos do Claude Code, eliminando erros de roteamento de LLMs e desperdício de tokens com mega-prompts.

AIBrain adiciona memória persistente e autoaperfeiçoamento ao Claude Code
AIBrain é uma ferramenta que dá ao Claude Code memória persistente entre sessões com busca semântica e ciclos de autoaperfeiçoamento. Inclui 53 fluxos de trabalho, 44 habilidades, 9 servidores MCP e suporta rede em malha multiagente via Tailscale.