Benchmarks Decodificação Especulativa RTX 3090 com Qwen3: 236% Mais Rápido

Hardware e Configuração

O desenvolvedor usou uma RTX 3090 24GB, Ryzen 7600X, 32GB de RAM e WSL2 Ubuntu. Eles migraram do Ollama no Windows para o llama.cpp no Linux WSL com decodificação especulativa para uma plataforma de IA interna que lida com consultas de clientes, formatação de orçamentos, pesquisa de equipamentos e análise de notas de trabalho confusas.

Metodologia de Teste

Eles testaram 16 modelos GGUF nas famílias Qwen2.5, Qwen3 e Qwen3.5, todas as combinações alvo+rascunho que cabem em 24GB de VRAM, emparelhamentos de rascunhos entre gerações (rascunhos Qwen2.5 em alvos Qwen3 e vice-versa), e monitoraram a VRAM em cada combinação para detectar descarregamento para a CPU. A avaliação de qualidade usou prompts reais do negócio de HVAC para geração de SQL, formatação de orçamentos, análise de notas de campo confusas e raciocínio sobre compatibilidade de equipamentos. Eles usaram draftbench e llama-throughput-lab para varreduras de velocidade, com Claude Code automatizando o processo durante a noite.

Principais Resultados de Velocidade

Qwen3-8B Q8_0 + Qwen3-1.7B Q4_K_M: 279,9 tok/s (+236% de aumento de velocidade, 13,6 GB VRAM)
Qwen2.5-7B Q4_K_M + Qwen2.5-0.5B Q8_0: 205,4 tok/s (+50% de aumento de velocidade, ~6 GB VRAM)
Qwen3-8B Q8_0 + Qwen3-0.6B Q4_0: 190,5 tok/s (+129% de aumento de velocidade, 12,9 GB VRAM)
Qwen3-14B Q4_K_M + Qwen3-0.6B Q4_0: 159,1 tok/s (+115% de aumento de velocidade, 13,5 GB VRAM)
Qwen2.5-14B Q8_0 + Qwen2.5-0.5B Q4_K_M: 137,5 tok/s (+186% de aumento de velocidade, ~16 GB VRAM)
Qwen3.5-35B-A3B Q4_K_M (linha de base, sem rascunho): 133,6 tok/s (22 GB VRAM)
Qwen2.5-32B Q4_K_M + Qwen2.5-1.5B Q4_K_M: 91,0 tok/s (+156% de aumento de velocidade, ~20 GB VRAM)

A combinação Qwen3-8B + rascunho 1.7B alcançou uma taxa de aceitação de 100%—uma correspondência perfeita de rascunho onde o 1.7B prevê exatamente o que o 8B geraria.

Problema do Modo de Pensamento do Qwen3.5

Os modelos Qwen3.5 entram no modo de pensamento por padrão no llama.cpp, gerando tokens de raciocínio ocultos antes de responder. Isso causou resultados de benchmark erráticos: 0 tok/s alternando com 700 tok/s, TTFT saltando entre 1s e 28s. Apenas três métodos funcionaram para desativá-lo:

--jinja + modelo de chat corrigido com enable_thinking=false codificado ✅
Endpoint bruto /completion (ignora completamente o modelo de chat) ✅
Tudo o mais (prompts de sistema, sufixo /no_think, truques de temperatura) ❌

Se estiver executando Qwen3.5 no llama.cpp, você precisa do modelo corrigido ou obterá benchmarks sem valor.

Descobertas da Avaliação de Qualidade

Eles executaram quatro prompts difíceis específicos de HVAC testando solicitações ambíguas de clientes, orçamentos complexos, notas confusas com erros de digitação e raciocínio sobre compatibilidade de equipamentos. Principais descobertas:

Cada modelo falhou na matemática da fórmula de preços: 8B, 14B, 32B, 35B—nenhum conseguiu calcular corretamente $4.811 / (1 - 0,47) = $9.077. LLMs não podem fazer matemática de negócios de forma confiável—coloque suas fórmulas em código.
O 8B lidou com 3/4 dos prompts difíceis—bom em solicitações ambíguas, notas confusas, tarefas diárias—mas falhou no raciocínio técnico sobre equipamentos.
O 35B-A3B foi o único modelo com conhecimento real do domínio de HVAC—dimensionou corretamente um mini split para uma garagem sem isolamento em Chicago, sabia recomendar a série Hyper-Heat para clima frio, disse corretamente que nenhuma caixa de ramificação era necessária para zona única—mas perdeu um número de modelo em notas confusas e falhou na matemática.
Maior ≠ melhor em todos os aspectos: O Qwen3-14B Q4_K_M (159 tok/s) teve desempenho pior que o 8B na maioria dos prompts. O 32B recomendou uma unidade de 5 toneladas para uma garagem de 400 pés quadrados.
O Qwen2.5-7B alucinou em todos os testes de análise de notas—inventou detalhes consistentemente.

📖 Read the full source: r/LocalLLaMA

Benchmarks de Decodificação Especulativa em RTX 3090 com Modelos Qwen para Uso Empresarial em HVAC

Hardware e Configuração

Metodologia de Teste

Principais Resultados de Velocidade

Problema do Modo de Pensamento do Qwen3.5

Descobertas da Avaliação de Qualidade

👀 See Also

Agente de IA Executando Operação Completa de E-commerce: Relatório Interno

Assistente OpenClaw Cria Assistente de Terminal Dockerizado com Roteamento Personalizado

Agente OpenClaw Implementa Ciclo Autônomo de Autoaperfeiçoamento com Ciclos Noturnos de Sonho

Fluxo de Trabalho do Claude Mobile: Brainstorm de Recursos no Telefone, Implementação Autônoma