Configurando o Qwen3.5-27B Localmente: Comparação entre vLLM e llama.cpp

Desempenho e Capacidades do Qwen3.5-27B
O modelo Qwen3.5-27B demonstra forte desempenho em vários benchmarks de acordo com a fonte: MMLU-Pro: 85.3, MMLU-Redux: 93.3, C-Eval: 90.2, pontuação geral de inteligência: 42.1 (melhor que 91% dos modelos comparados) e índice de codificação: 34.9 (supera 88% nas capacidades de codificação). O modelo apresenta uma arquitetura densa com contexto nativo de 262k que é extensível para mais de 1M de tokens.
Comparação de Backends: llama.cpp vs vLLM
A fonte compara duas abordagens principais para implantação local:
Opção 1: llama.cpp
- Vantagens: Baixa pegada, configuração fácil, suporta cache KV q4 para uso razoável de VRAM
- Desvantagens: Problema grave com o cache KV sendo apagado aleatoriamente, forçando o reprocessamento completo do prompt no meio da sessão. Decodificação especulativa via MTP não funciona. Bug conhecido sem correções sólidas ainda.
Opção 2: vLLM
- Vantagens: Sessões estáveis, sem apagamentos de KV, suporta decodificação especulativa com MTP para gerações mais rápidas
- Desvantagens: Sem suporte a cache KV q4, então a VRAM tem picos em contexto de 256k. A análise de chamadas de ferramentas é problemática para o Qwen3.5 na versão v0.17.1, com correções em PRs abertos do GitHub mas ainda não mescladas. Isso quebra fluxos de codificação agentica com saídas JSON malformadas.
Configuração Recomendada do vLLM
A fonte fornece recomendações de configuração específicas para execuções estáveis e de alta velocidade usando o modelo do HF: osoleve/Qwen3.5-27B-Text-NVFP4-MTP:
- Use o backend flashinfer cutlass para desempenho otimizado
- Defina a janela de contexto para 128k (equilibra VRAM e usabilidade; aumente para 256k se tiver o hardware)
- Limite a utilização da GPU para 0,82 para evitar travamentos por falta de memória
- Defina max-num-seq para 2 (lida bem com uma única sessão sem sobrecarregar)
- Habilite a decodificação especulativa MTP para melhorias de velocidade
- Aplique patches no vLLM com as correções de análise de chamadas de ferramentas do Qwen dos PRs abertos
- Use o CLI de código do Claude - o código aberto ainda tem problemas de análise de chamadas de ferramentas que não aparecem no código do Claude após o patch
Resultados de Desempenho
De acordo com a fonte, o desempenho varia conforme o hardware:
- Em uma RTX 5090 (32GB VRAM): ~50 TPS
- Em uma RTX Pro 6000 (96GB VRAM): 70 TPS em contexto total de 256k
📖 Leia a fonte completa: r/LocalLLaMA
👀 See Also

O Método de Prompting em Duas Fases de um Desenvolvedor Solo para Grandes Projetos com a Claude AI
Um desenvolvedor solo compartilha um fluxo de trabalho usando o Claude Chat como arquiteto e o Claude Code como construtor, com um método de prompt em duas fases que inclui análise de modos de falha e portas de verificação.

Autópsia: Erros de Faturamento do Claude Max + OpenClaw devido a OAuth Desatualizado e Tarefas Cron Isoladas
O agente OpenClaw quebra aleatoriamente devido a um token OAuth expirado que coloca todo o provedor Anthropic na lista negra e trabalhos cron isolados que atingem o bucket de Uso Extra. Correção completa: remover perfil manual, mover cron para a sessão principal, limpar bloqueio de faturamento.

Configuração e Teste do vLLM em Servidor com 10x NVIDIA V100 e 320 GB de VRAM
Um advogado que está construindo um servidor local de IA para trabalho jurídico compartilha resultados de testes do vLLM em 10 GPUs Tesla V100 SXM2 de 32 GB, detalhando o que funciona (FP16 não quantizado, bitsandbytes 4-bit) e o que não funciona (GPTQ, AWQ, FlashAttention2) na arquitetura Volta.

Como Otimizar Sua Configuração do OpenClaw com Instruções Específicas e Refinamentos
A otimização do OpenClaw depende de instruções precisas e do refinamento contínuo das personalidades dos agentes, além da utilização eficiente de modelos em termos de custo.