Configurando o Qwen3.5-27B Localmente: Comparação entre vLLM e llama.cpp

✍️ OpenClawRadar📅 Publicado: March 15, 2026🔗 Source
Configurando o Qwen3.5-27B Localmente: Comparação entre vLLM e llama.cpp
Ad

Desempenho e Capacidades do Qwen3.5-27B

O modelo Qwen3.5-27B demonstra forte desempenho em vários benchmarks de acordo com a fonte: MMLU-Pro: 85.3, MMLU-Redux: 93.3, C-Eval: 90.2, pontuação geral de inteligência: 42.1 (melhor que 91% dos modelos comparados) e índice de codificação: 34.9 (supera 88% nas capacidades de codificação). O modelo apresenta uma arquitetura densa com contexto nativo de 262k que é extensível para mais de 1M de tokens.

Comparação de Backends: llama.cpp vs vLLM

A fonte compara duas abordagens principais para implantação local:

Opção 1: llama.cpp

  • Vantagens: Baixa pegada, configuração fácil, suporta cache KV q4 para uso razoável de VRAM
  • Desvantagens: Problema grave com o cache KV sendo apagado aleatoriamente, forçando o reprocessamento completo do prompt no meio da sessão. Decodificação especulativa via MTP não funciona. Bug conhecido sem correções sólidas ainda.

Opção 2: vLLM

  • Vantagens: Sessões estáveis, sem apagamentos de KV, suporta decodificação especulativa com MTP para gerações mais rápidas
  • Desvantagens: Sem suporte a cache KV q4, então a VRAM tem picos em contexto de 256k. A análise de chamadas de ferramentas é problemática para o Qwen3.5 na versão v0.17.1, com correções em PRs abertos do GitHub mas ainda não mescladas. Isso quebra fluxos de codificação agentica com saídas JSON malformadas.
Ad

Configuração Recomendada do vLLM

A fonte fornece recomendações de configuração específicas para execuções estáveis e de alta velocidade usando o modelo do HF: osoleve/Qwen3.5-27B-Text-NVFP4-MTP:

  • Use o backend flashinfer cutlass para desempenho otimizado
  • Defina a janela de contexto para 128k (equilibra VRAM e usabilidade; aumente para 256k se tiver o hardware)
  • Limite a utilização da GPU para 0,82 para evitar travamentos por falta de memória
  • Defina max-num-seq para 2 (lida bem com uma única sessão sem sobrecarregar)
  • Habilite a decodificação especulativa MTP para melhorias de velocidade
  • Aplique patches no vLLM com as correções de análise de chamadas de ferramentas do Qwen dos PRs abertos
  • Use o CLI de código do Claude - o código aberto ainda tem problemas de análise de chamadas de ferramentas que não aparecem no código do Claude após o patch

Resultados de Desempenho

De acordo com a fonte, o desempenho varia conforme o hardware:

  • Em uma RTX 5090 (32GB VRAM): ~50 TPS
  • Em uma RTX Pro 6000 (96GB VRAM): 70 TPS em contexto total de 256k

📖 Leia a fonte completa: r/LocalLLaMA

Ad

👀 See Also

O Método de Prompting em Duas Fases de um Desenvolvedor Solo para Grandes Projetos com a Claude AI
Guides

O Método de Prompting em Duas Fases de um Desenvolvedor Solo para Grandes Projetos com a Claude AI

Um desenvolvedor solo compartilha um fluxo de trabalho usando o Claude Chat como arquiteto e o Claude Code como construtor, com um método de prompt em duas fases que inclui análise de modos de falha e portas de verificação.

OpenClawRadar
Autópsia: Erros de Faturamento do Claude Max + OpenClaw devido a OAuth Desatualizado e Tarefas Cron Isoladas
Guides

Autópsia: Erros de Faturamento do Claude Max + OpenClaw devido a OAuth Desatualizado e Tarefas Cron Isoladas

O agente OpenClaw quebra aleatoriamente devido a um token OAuth expirado que coloca todo o provedor Anthropic na lista negra e trabalhos cron isolados que atingem o bucket de Uso Extra. Correção completa: remover perfil manual, mover cron para a sessão principal, limpar bloqueio de faturamento.

OpenClawRadar
Configuração e Teste do vLLM em Servidor com 10x NVIDIA V100 e 320 GB de VRAM
Guides

Configuração e Teste do vLLM em Servidor com 10x NVIDIA V100 e 320 GB de VRAM

Um advogado que está construindo um servidor local de IA para trabalho jurídico compartilha resultados de testes do vLLM em 10 GPUs Tesla V100 SXM2 de 32 GB, detalhando o que funciona (FP16 não quantizado, bitsandbytes 4-bit) e o que não funciona (GPTQ, AWQ, FlashAttention2) na arquitetura Volta.

OpenClawRadar
Como Otimizar Sua Configuração do OpenClaw com Instruções Específicas e Refinamentos
Guides

Como Otimizar Sua Configuração do OpenClaw com Instruções Específicas e Refinamentos

A otimização do OpenClaw depende de instruções precisas e do refinamento contínuo das personalidades dos agentes, além da utilização eficiente de modelos em termos de custo.

OpenClawRadar