Qwen3-30B-A3B vs Qwen3.5-35B-A3B: Benchmark RTX 5090

Comparação de Desempenho: Qwen3-30B-A3B vs Qwen3.5-35B-A3B

Um benchmark detalhado comparando o Qwen3-30B-A3B e o recém-lançado Qwen3.5-35B-A3B em uma NVIDIA RTX 5090 revela compensações entre velocidade e manipulação de contexto. Ambos os modelos usam a mesma arquitetura Mixture of Experts com 3B de parâmetros ativos, com a versão 3.5 adicionando mais 5B de parâmetros totais e incluindo um projetor visual.

Hardware e Configuração

GPU: NVIDIA RTX 5090 (32 GB VRAM, Blackwell)
Servidor: llama.cpp b8115 (Docker: ghcr.io/ggml-org/llama.cpp:server-cuda)
Quantização: Q4_K_M para ambos os modelos
Cache KV: Q8_0 (-ctk q8_0 -ctv q8_0)
Contexto: 32.768 tokens (-c 32768)
Parâmetros: -ngl 999 -np 4 --flash-attn on -t 12
Modelo A: Qwen3-30B-A3B-Q4_K_M (17 GB em disco)
Modelo B: Qwen3.5-35B-A3B-Q4_K_M (21 GB em disco)

Ambos os modelos foram aquecidos com uma solicitação descartável antes do cronometragem. As medições de tempo do lado do servidor vieram das respostas da API, não de medições de tempo real.

Resultados de Velocidade de Inferência Bruta

Testes diretos com llama.cpp /v1/chat/completions mostraram:

Prompts curtos (8-9 tokens): 30B: 248,2 tok/s, 3.5: 169,5 tok/s
Prompts médios (73-78 tokens): 30B: 236,1 tok/s, 3.5: 163,5 tok/s
Formato longo (800 tokens): 30B: 232,6 tok/s, 3.5: 116,3 tok/s
Geração de código (298-400 tokens): 30B: 233,9 tok/s, 3.5: 161,6 tok/s
Raciocínio (200 tokens): 30B: 234,8 tok/s, 3.5: 158,2 tok/s

Velocidade média de geração: 30B: 237,1 tok/s, 3.5: 153,8 tok/s (30B é 35% mais rápido)

Médias de processamento de prompt: 30B: 773,5 tokens/s, 3.5: 518,1 tokens/s

O modelo 3.5 mostra uma regressão interessante em saídas longas (800 tokens), caindo para 116 tok/s contra ~160 tok/s em saídas mais curtas. O processamento de prompt é mais lento no 3.5 devido ao seu vocabulário maior (248K vs 152K tokens).

Uso de Memória

Uso de VRAM: 30B usa 27,3 GB em idle, 3.5 usa 29,0 GB em idle. Ambos cabem confortavelmente na RTX 5090.

Observações de Qualidade de Resposta

Testes em temperatura=0,7 mostraram que ambos os modelos produzem saídas competentes. Principais observações:

Escrita criativa: Ambos sólidos, com o 3.5 mostrando prosa ligeiramente mais atmosférica
Geração de haiku: Ambos produzem estruturas 5-7-5 válidas
Tarefas de codificação: Ambos implementam corretamente cache LRU com operações get/put O(1)

O modelo 3.5 lida com contexto longo significativamente melhor, com escalonamento plano de tokens contra a degradação de 21% do 30B. As diferenças de qualidade são mínimas, com uma ligeira vantagem para o 3.5 em estrutura e formatação.

📖 Leia a fonte completa: r/LocalLLaMA