Qwen 3.6 27B com MTP em V100 32GB: 54 t/s via ramo llama.cpp

✍️ OpenClawRadar📅 Publicado: May 6, 2026🔗 Source
Qwen 3.6 27B com MTP em V100 32GB: 54 t/s via ramo llama.cpp
Ad

Um usuário no r/LocalLLaMA relata resultados impressionantes ao executar Qwen 3.6 27B com Multi-Token Prediction (MTP) em um módulo V100 32GB SXM usando um adaptador PCIe. A configuração utiliza o branch MTP do am17an do llama.cpp e a respectiva quantização MTP GGUF. Principais especificações: cache KV Q8_0 com limite de 200k, executando como backend do VS Code Copilot via llama-server.

Números de Desempenho

  • Sem MTP: 29-30 tokens/segundo
  • Com MTP: 54-55 tokens/segundo (com limite de potência de 150W)
  • Após 50k tokens de contexto: cai para 40-45 t/s

Branch: fork MTP do am17an. A construção e execução foram diretas — 'puxado e construído de uma vez' com o llama-server rodando sem problemas. A configuração lida bem com chamadas de ferramentas e subagentes, e forneceu 'revisões de código e refatorações muito perspicazes' apesar da limitação de VRAM (32GB).

Isso é particularmente relevante para desenvolvedores executando LLMs em hardware de datacenter mais antigo, como V100s. O MTP efetivamente dobra a taxa de transferência para este modelo, demonstrando ganhos práticos para cargas de trabalho de assistente de codificação.

📖 Leia a fonte completa: r/LocalLLaMA

Ad

👀 See Also

Agente Kernel: Três Arquivos Markdown para Agentes de IA com Estado
Tools

Agente Kernel: Três Arquivos Markdown para Agentes de IA com Estado

O Agent Kernel fornece três arquivos markdown que permitem comportamento com estado em agentes de codificação de IA sem bancos de dados ou frameworks personalizados. Ele funciona com OpenCode, Claude Code, Codex, Cursor, Windsurf e ferramentas similares.

OpenClawRadar
🦀
Tools

Uso4Claude 3.0.0: Rastreador de Barra de Menu macOS de Código Aberto para Claude e Codex

Usage4Claude 3.0.0 adiciona suporte opcional ao Codex, login embutido no navegador para Claude, alternância entre múltiplas contas e notificações localizadas.

OpenClawRadar
Usuário do Reddit Testa Recurso de Autoaprendizado do Agente de IA Hermes, Encontra Falhas Críticas
Tools

Usuário do Reddit Testa Recurso de Autoaprendizado do Agente de IA Hermes, Encontra Falhas Críticas

Um usuário do Reddit testou o recurso de autoaprendizagem do agente de IA Hermes, que cria habilidades automaticamente a partir de arquivos markdown. O usuário descobriu que ele sempre avalia seus próprios resultados como bem-sucedidos, mesmo quando a saída está incorreta, e sobrescreve edições manuais.

OpenClawRadar
SkyClaw v2.2 Runtime de Agente de IA em Rust Adiciona OAuth da OpenAI e Criação de Ferramentas Personalizadas
Tools

SkyClaw v2.2 Runtime de Agente de IA em Rust Adiciona OAuth da OpenAI e Criação de Ferramentas Personalizadas

O SkyClaw v2.2 introduz autenticação OAuth da OpenAI usando assinaturas ChatGPT Plus/Pro, criação de ferramentas personalizadas onde os agentes escrevem suas próprias ferramentas bash/python/node em tempo de execução, e modo daemon para operação em segundo plano. O runtime baseado em Rust tem benchmarks de 31ms de inicialização a frio, 15MB de RAM em idle e tamanho binário de 9.3MB.

OpenClawRadar