Qwen 3.6 27B a 54 t/s em V100 32GB com llama.cpp

Um usuário no r/LocalLLaMA relata resultados impressionantes ao executar Qwen 3.6 27B com Multi-Token Prediction (MTP) em um módulo V100 32GB SXM usando um adaptador PCIe. A configuração utiliza o branch MTP do am17an do llama.cpp e a respectiva quantização MTP GGUF. Principais especificações: cache KV Q8_0 com limite de 200k, executando como backend do VS Code Copilot via llama-server.

Números de Desempenho

Sem MTP: 29-30 tokens/segundo
Com MTP: 54-55 tokens/segundo (com limite de potência de 150W)
Após 50k tokens de contexto: cai para 40-45 t/s

Branch: fork MTP do am17an. A construção e execução foram diretas — 'puxado e construído de uma vez' com o llama-server rodando sem problemas. A configuração lida bem com chamadas de ferramentas e subagentes, e forneceu 'revisões de código e refatorações muito perspicazes' apesar da limitação de VRAM (32GB).

Isso é particularmente relevante para desenvolvedores executando LLMs em hardware de datacenter mais antigo, como V100s. O MTP efetivamente dobra a taxa de transferência para este modelo, demonstrando ganhos práticos para cargas de trabalho de assistente de codificação.

📖 Leia a fonte completa: r/LocalLLaMA

Qwen 3.6 27B com MTP em V100 32GB: 54 t/s via ramo llama.cpp

Números de Desempenho

👀 See Also

Implementando Verificações de IA com Continue para Revisões de PR Controladas por Código-Fonte

Manifest Router Adiciona Suporte à Assinatura ZAI para Gerenciamento de Modelos OpenClaw

Ferramenta MCP com Claude Gera Componentes HTML Interativos Sem Ferramentas de Build

Servidor MCP OpenGalatea Conecta Claude às Impressoras 3D Prusa