Benchmarks de Decodificação Especulativa em RTX 3090 com Modelos Qwen para Uso Empresarial em HVAC

✍️ OpenClawRadar📅 Publicado: March 28, 2026🔗 Source
Benchmarks de Decodificação Especulativa em RTX 3090 com Modelos Qwen para Uso Empresarial em HVAC
Ad

Hardware e Configuração

O desenvolvedor usou uma RTX 3090 24GB, Ryzen 7600X, 32GB de RAM e WSL2 Ubuntu. Eles migraram do Ollama no Windows para o llama.cpp no Linux WSL com decodificação especulativa para uma plataforma de IA interna que lida com consultas de clientes, formatação de orçamentos, pesquisa de equipamentos e análise de notas de trabalho confusas.

Metodologia de Teste

Eles testaram 16 modelos GGUF nas famílias Qwen2.5, Qwen3 e Qwen3.5, todas as combinações alvo+rascunho que cabem em 24GB de VRAM, emparelhamentos de rascunhos entre gerações (rascunhos Qwen2.5 em alvos Qwen3 e vice-versa), e monitoraram a VRAM em cada combinação para detectar descarregamento para a CPU. A avaliação de qualidade usou prompts reais do negócio de HVAC para geração de SQL, formatação de orçamentos, análise de notas de campo confusas e raciocínio sobre compatibilidade de equipamentos. Eles usaram draftbench e llama-throughput-lab para varreduras de velocidade, com Claude Code automatizando o processo durante a noite.

Principais Resultados de Velocidade

  • Qwen3-8B Q8_0 + Qwen3-1.7B Q4_K_M: 279,9 tok/s (+236% de aumento de velocidade, 13,6 GB VRAM)
  • Qwen2.5-7B Q4_K_M + Qwen2.5-0.5B Q8_0: 205,4 tok/s (+50% de aumento de velocidade, ~6 GB VRAM)
  • Qwen3-8B Q8_0 + Qwen3-0.6B Q4_0: 190,5 tok/s (+129% de aumento de velocidade, 12,9 GB VRAM)
  • Qwen3-14B Q4_K_M + Qwen3-0.6B Q4_0: 159,1 tok/s (+115% de aumento de velocidade, 13,5 GB VRAM)
  • Qwen2.5-14B Q8_0 + Qwen2.5-0.5B Q4_K_M: 137,5 tok/s (+186% de aumento de velocidade, ~16 GB VRAM)
  • Qwen3.5-35B-A3B Q4_K_M (linha de base, sem rascunho): 133,6 tok/s (22 GB VRAM)
  • Qwen2.5-32B Q4_K_M + Qwen2.5-1.5B Q4_K_M: 91,0 tok/s (+156% de aumento de velocidade, ~20 GB VRAM)

A combinação Qwen3-8B + rascunho 1.7B alcançou uma taxa de aceitação de 100%—uma correspondência perfeita de rascunho onde o 1.7B prevê exatamente o que o 8B geraria.

Ad

Problema do Modo de Pensamento do Qwen3.5

Os modelos Qwen3.5 entram no modo de pensamento por padrão no llama.cpp, gerando tokens de raciocínio ocultos antes de responder. Isso causou resultados de benchmark erráticos: 0 tok/s alternando com 700 tok/s, TTFT saltando entre 1s e 28s. Apenas três métodos funcionaram para desativá-lo:

  • --jinja + modelo de chat corrigido com enable_thinking=false codificado ✅
  • Endpoint bruto /completion (ignora completamente o modelo de chat) ✅
  • Tudo o mais (prompts de sistema, sufixo /no_think, truques de temperatura) ❌

Se estiver executando Qwen3.5 no llama.cpp, você precisa do modelo corrigido ou obterá benchmarks sem valor.

Descobertas da Avaliação de Qualidade

Eles executaram quatro prompts difíceis específicos de HVAC testando solicitações ambíguas de clientes, orçamentos complexos, notas confusas com erros de digitação e raciocínio sobre compatibilidade de equipamentos. Principais descobertas:

  • Cada modelo falhou na matemática da fórmula de preços: 8B, 14B, 32B, 35B—nenhum conseguiu calcular corretamente $4.811 / (1 - 0,47) = $9.077. LLMs não podem fazer matemática de negócios de forma confiável—coloque suas fórmulas em código.
  • O 8B lidou com 3/4 dos prompts difíceis—bom em solicitações ambíguas, notas confusas, tarefas diárias—mas falhou no raciocínio técnico sobre equipamentos.
  • O 35B-A3B foi o único modelo com conhecimento real do domínio de HVAC—dimensionou corretamente um mini split para uma garagem sem isolamento em Chicago, sabia recomendar a série Hyper-Heat para clima frio, disse corretamente que nenhuma caixa de ramificação era necessária para zona única—mas perdeu um número de modelo em notas confusas e falhou na matemática.
  • Maior ≠ melhor em todos os aspectos: O Qwen3-14B Q4_K_M (159 tok/s) teve desempenho pior que o 8B na maioria dos prompts. O 32B recomendou uma unidade de 5 toneladas para uma garagem de 400 pés quadrados.
  • O Qwen2.5-7B alucinou em todos os testes de análise de notas—inventou detalhes consistentemente.

📖 Read the full source: r/LocalLLaMA

Ad

👀 See Also

Utilizador Implementa Assistente de IA 'Elvis' em VPS para Tarefas de Gestão de Projetos
Use Cases

Utilizador Implementa Assistente de IA 'Elvis' em VPS para Tarefas de Gestão de Projetos

Um desenvolvedor passou três dias configurando um assistente de IA chamado 'Elvis' em um VPS Linux, integrando-o com Microsoft Teams, JIRA, Asana e sistemas de e-mail. O assistente lidou com sucesso com tarefas de gerenciamento de projetos, incluindo leitura de e-mails, extração de requisitos, atualização de solicitações de alteração e coordenação com membros da equipe.

OpenClawRadar
Executando o OpenClaw em um MacBook Pro de 2013 com macOS Sonoma via OpenCore Legacy Patcher
Use Cases

Executando o OpenClaw em um MacBook Pro de 2013 com macOS Sonoma via OpenCore Legacy Patcher

Um desenvolvedor instalou e executou com sucesso o OpenClaw em um MacBook Pro 15" de 2013 com 16 GB de RAM, usando o OpenCore Legacy Patcher para instalar o macOS Sonoma (v14), atendendo aos requisitos do Node.js 22/24.

OpenClawRadar
Claude + Remotion: Criando um Vídeo de Lançamento de Produto sem Habilidades de Animação
Use Cases

Claude + Remotion: Criando um Vídeo de Lançamento de Produto sem Habilidades de Animação

Um desenvolvedor usou o conhecimento profundo do Claude sobre a API do Remotion para criar um vídeo animado de 30 segundos para o lançamento de um aplicativo do mercado de ações — sem transições CSS, física spring, efeitos de máquina de escrever e animações escalonadas em 10 arquivos de cena.

OpenClawRadar
Configuração de Orquestração Multi-IA Usando Claude Code com GPT e Gemini
Use Cases

Configuração de Orquestração Multi-IA Usando Claude Code com GPT e Gemini

Um desenvolvedor compartilha sua configuração onde o Claude Code orquestra o GPT-5.4 e o Gemini 3.1 Pro no mesmo IDE, usando arquivos markdown para contexto persistente e comandos CLI para comunicação entre modelos.

OpenClawRadar