Comparação de Desempenho entre Qwen3-30B-A3B e Qwen3.5-35B-A3B no RTX 5090

Comparação de Desempenho: Qwen3-30B-A3B vs Qwen3.5-35B-A3B
Um benchmark detalhado comparando o Qwen3-30B-A3B e o recém-lançado Qwen3.5-35B-A3B em uma NVIDIA RTX 5090 revela compensações entre velocidade e manipulação de contexto. Ambos os modelos usam a mesma arquitetura Mixture of Experts com 3B de parâmetros ativos, com a versão 3.5 adicionando mais 5B de parâmetros totais e incluindo um projetor visual.
Hardware e Configuração
- GPU: NVIDIA RTX 5090 (32 GB VRAM, Blackwell)
- Servidor: llama.cpp b8115 (Docker: ghcr.io/ggml-org/llama.cpp:server-cuda)
- Quantização: Q4_K_M para ambos os modelos
- Cache KV: Q8_0 (-ctk q8_0 -ctv q8_0)
- Contexto: 32.768 tokens (-c 32768)
- Parâmetros: -ngl 999 -np 4 --flash-attn on -t 12
- Modelo A: Qwen3-30B-A3B-Q4_K_M (17 GB em disco)
- Modelo B: Qwen3.5-35B-A3B-Q4_K_M (21 GB em disco)
Ambos os modelos foram aquecidos com uma solicitação descartável antes do cronometragem. As medições de tempo do lado do servidor vieram das respostas da API, não de medições de tempo real.
Resultados de Velocidade de Inferência Bruta
Testes diretos com llama.cpp /v1/chat/completions mostraram:
- Prompts curtos (8-9 tokens): 30B: 248,2 tok/s, 3.5: 169,5 tok/s
- Prompts médios (73-78 tokens): 30B: 236,1 tok/s, 3.5: 163,5 tok/s
- Formato longo (800 tokens): 30B: 232,6 tok/s, 3.5: 116,3 tok/s
- Geração de código (298-400 tokens): 30B: 233,9 tok/s, 3.5: 161,6 tok/s
- Raciocínio (200 tokens): 30B: 234,8 tok/s, 3.5: 158,2 tok/s
Velocidade média de geração: 30B: 237,1 tok/s, 3.5: 153,8 tok/s (30B é 35% mais rápido)
Médias de processamento de prompt: 30B: 773,5 tokens/s, 3.5: 518,1 tokens/s
O modelo 3.5 mostra uma regressão interessante em saídas longas (800 tokens), caindo para 116 tok/s contra ~160 tok/s em saídas mais curtas. O processamento de prompt é mais lento no 3.5 devido ao seu vocabulário maior (248K vs 152K tokens).
Uso de Memória
Uso de VRAM: 30B usa 27,3 GB em idle, 3.5 usa 29,0 GB em idle. Ambos cabem confortavelmente na RTX 5090.
Observações de Qualidade de Resposta
Testes em temperatura=0,7 mostraram que ambos os modelos produzem saídas competentes. Principais observações:
- Escrita criativa: Ambos sólidos, com o 3.5 mostrando prosa ligeiramente mais atmosférica
- Geração de haiku: Ambos produzem estruturas 5-7-5 válidas
- Tarefas de codificação: Ambos implementam corretamente cache LRU com operações get/put O(1)
O modelo 3.5 lida com contexto longo significativamente melhor, com escalonamento plano de tokens contra a degradação de 21% do 30B. As diferenças de qualidade são mínimas, com uma ligeira vantagem para o 3.5 em estrutura e formatação.
📖 Leia a fonte completa: r/LocalLLaMA
👀 See Also

A Cerebras lança os modelos Step-3.5-Flash-REAP com redução de 40% no uso de memória.
A Cerebras lançou os modelos Step-3.5-Flash-REAP que utilizam REAP (Router-weighted Expert Activation Pruning) para comprimir modelos de 196B parâmetros para 121B mantendo desempenho quase idêntico. Os modelos funcionam com vLLM padrão e são otimizados para ambientes com recursos limitados.

Arquitetura de IA Híbrida: Componentes de Código Aberto com Modelos de Raciocínio Proprietários
Uma arquitetura híbrida prática de IA está surgindo, onde 89% das organizações usam componentes de código aberto para reduzir custos em mais de 50%, enquanto modelos proprietários lidam com tarefas complexas de raciocínio. Os frameworks de código aberto oferecem transparência e capacidades de ajuste fino sem negociações de licenciamento.

China Proíbe Co-Fundadores da Manus de Sair do País Durante Revisão do Acordo com a Meta
A China proibiu dois cofundadores da startup de IA Manus de deixar o país enquanto reguladores avaliam se a aquisição de US$ 2 bilhões da Meta violou regras de investimento. Os executivos foram convocados a uma reunião em Pequim com a Comissão Nacional de Desenvolvimento e Reforma neste mês.

Regressão de Desempenho do Claude Code Diagnosticada: Configuração, Não Inteligência do Modelo
A autópsia da Anthropic revela que a queda de desempenho do Claude Code foi causada por três mudanças no produto — esforço de raciocínio padrão, bug de cache de sessão e alteração de verbosidade do prompt —, e não por degradação do modelo. O rollback restaurou o desempenho.