Qwen3.5-27B Local: vLLM vs llama.cpp (Comparação)

Desempenho e Capacidades do Qwen3.5-27B

O modelo Qwen3.5-27B demonstra forte desempenho em vários benchmarks de acordo com a fonte: MMLU-Pro: 85.3, MMLU-Redux: 93.3, C-Eval: 90.2, pontuação geral de inteligência: 42.1 (melhor que 91% dos modelos comparados) e índice de codificação: 34.9 (supera 88% nas capacidades de codificação). O modelo apresenta uma arquitetura densa com contexto nativo de 262k que é extensível para mais de 1M de tokens.

Comparação de Backends: llama.cpp vs vLLM

A fonte compara duas abordagens principais para implantação local:

Opção 1: llama.cpp

Vantagens: Baixa pegada, configuração fácil, suporta cache KV q4 para uso razoável de VRAM
Desvantagens: Problema grave com o cache KV sendo apagado aleatoriamente, forçando o reprocessamento completo do prompt no meio da sessão. Decodificação especulativa via MTP não funciona. Bug conhecido sem correções sólidas ainda.

Opção 2: vLLM

Vantagens: Sessões estáveis, sem apagamentos de KV, suporta decodificação especulativa com MTP para gerações mais rápidas
Desvantagens: Sem suporte a cache KV q4, então a VRAM tem picos em contexto de 256k. A análise de chamadas de ferramentas é problemática para o Qwen3.5 na versão v0.17.1, com correções em PRs abertos do GitHub mas ainda não mescladas. Isso quebra fluxos de codificação agentica com saídas JSON malformadas.

Configuração Recomendada do vLLM

A fonte fornece recomendações de configuração específicas para execuções estáveis e de alta velocidade usando o modelo do HF: osoleve/Qwen3.5-27B-Text-NVFP4-MTP:

Use o backend flashinfer cutlass para desempenho otimizado
Defina a janela de contexto para 128k (equilibra VRAM e usabilidade; aumente para 256k se tiver o hardware)
Limite a utilização da GPU para 0,82 para evitar travamentos por falta de memória
Defina max-num-seq para 2 (lida bem com uma única sessão sem sobrecarregar)
Habilite a decodificação especulativa MTP para melhorias de velocidade
Aplique patches no vLLM com as correções de análise de chamadas de ferramentas do Qwen dos PRs abertos
Use o CLI de código do Claude - o código aberto ainda tem problemas de análise de chamadas de ferramentas que não aparecem no código do Claude após o patch