Qwen 3.6 27B com MTP em V100 32GB: 54 t/s via ramo llama.cpp

Um usuário no r/LocalLLaMA relata resultados impressionantes ao executar Qwen 3.6 27B com Multi-Token Prediction (MTP) em um módulo V100 32GB SXM usando um adaptador PCIe. A configuração utiliza o branch MTP do am17an do llama.cpp e a respectiva quantização MTP GGUF. Principais especificações: cache KV Q8_0 com limite de 200k, executando como backend do VS Code Copilot via llama-server.
Números de Desempenho
- Sem MTP: 29-30 tokens/segundo
- Com MTP: 54-55 tokens/segundo (com limite de potência de 150W)
- Após 50k tokens de contexto: cai para 40-45 t/s
Branch: fork MTP do am17an. A construção e execução foram diretas — 'puxado e construído de uma vez' com o llama-server rodando sem problemas. A configuração lida bem com chamadas de ferramentas e subagentes, e forneceu 'revisões de código e refatorações muito perspicazes' apesar da limitação de VRAM (32GB).
Isso é particularmente relevante para desenvolvedores executando LLMs em hardware de datacenter mais antigo, como V100s. O MTP efetivamente dobra a taxa de transferência para este modelo, demonstrando ganhos práticos para cargas de trabalho de assistente de codificação.
📖 Leia a fonte completa: r/LocalLLaMA
👀 See Also

Agente Kernel: Três Arquivos Markdown para Agentes de IA com Estado
O Agent Kernel fornece três arquivos markdown que permitem comportamento com estado em agentes de codificação de IA sem bancos de dados ou frameworks personalizados. Ele funciona com OpenCode, Claude Code, Codex, Cursor, Windsurf e ferramentas similares.
Uso4Claude 3.0.0: Rastreador de Barra de Menu macOS de Código Aberto para Claude e Codex
Usage4Claude 3.0.0 adiciona suporte opcional ao Codex, login embutido no navegador para Claude, alternância entre múltiplas contas e notificações localizadas.

Usuário do Reddit Testa Recurso de Autoaprendizado do Agente de IA Hermes, Encontra Falhas Críticas
Um usuário do Reddit testou o recurso de autoaprendizagem do agente de IA Hermes, que cria habilidades automaticamente a partir de arquivos markdown. O usuário descobriu que ele sempre avalia seus próprios resultados como bem-sucedidos, mesmo quando a saída está incorreta, e sobrescreve edições manuais.

SkyClaw v2.2 Runtime de Agente de IA em Rust Adiciona OAuth da OpenAI e Criação de Ferramentas Personalizadas
O SkyClaw v2.2 introduz autenticação OAuth da OpenAI usando assinaturas ChatGPT Plus/Pro, criação de ferramentas personalizadas onde os agentes escrevem suas próprias ferramentas bash/python/node em tempo de execução, e modo daemon para operação em segundo plano. O runtime baseado em Rust tem benchmarks de 31ms de inicialização a frio, 15MB de RAM em idle e tamanho binário de 9.3MB.