Qwen3.6 35B MoE na RTX 5080: 56 tok/s em 128k, MTP Prejudica

O commit b9190 do llama.cpp mainline fundiu o MTP (Multi-Token Prediction). Benchmarks em uma RTX 5080 16GB com Qwen3.6 35B MoE em contexto de 128k revelam uma descoberta clara: o MTP prejudica o desempenho quando o modelo não cabe totalmente na GPU.

A Melhor Configuração (Sem MTP)

Qwen3.6-35B-A3B Q4_K_XL --fit-target 1536 em contexto de 131k produz:

56 tok/s de geração
1.584 tok/s de processamento de prompt em contexto de 128k

Nenhuma flag MTP necessária.

Por que o MTP Retarda o 35B MoE em 16GB

Três configurações testadas em comprimentos de contexto de agente de codificação:

27B IQ3+MTP: 12,45 GB, totalmente na GPU — média de 73 tok/s (MTP ajuda)
35B Q4_K_XL+MTP: ~22 GB, offload parcial — média de 74 tok/s (MTP prejudica)
35B Q8_0+MTP: ~36 GB, offload pesado — média de 46 tok/s

Sem MTP, o 35B Q4_K_XL atinge 97 tok/s com --fit-target 0 (15.815 MiB VRAM) e 86 tok/s com --fit-target 1536 (14.269 MiB). Com MTP ativado em --fit-target 1536, a velocidade cai para 74 tok/s (14.623 MiB) — uma redução de 23%.

A causa raiz: o buffer de computação do MTP reserva ~1,5 GB (--fit-target 1536), empurrando cerca de 3 camadas de especialistas MoE da GPU para a CPU. Como a inferência MoE sofre gargalo nas camadas de especialistas vinculadas à CPU, a taxa de aceitação de token de 79% do MTP não consegue compensar a velocidade mais lenta por etapa.

Para o modelo 27B (cabe inteiramente na GPU), --fit-target 0 funciona com ou sem MTP, portanto sem penalidade de VRAM — o MTP aumenta a velocidade de ~56 para 73 tok/s.

Regra Geral

O MTP ajuda quando seu modelo cabe na GPU. Ele prejudica quando o buffer de computação do MTP força mais camadas para a CPU. Em placas de 16GB com 35B MoE, pule o MTP.

Sistema de teste completo: RTX 5080 16GB, Ryzen 9 9950X, 128GB RAM, llama.cpp b9204 (mainline). Flags comuns do MTP: -np 1 --fit on -fa on -t 20 --no-mmap --jinja -ctk q8_0 -ctv q8_0 --spec-type draft-mtp --spec-draft-n-max 2.

📖 Leia a fonte completa: r/LocalLLaMA

RTX 5080 16GB: Qwen3.6 35B MoE em Contexto de 128k — 56 tok/s, e Por Que o MTP Não Ajuda

A Melhor Configuração (Sem MTP)

Por que o MTP Retarda o 35B MoE em 16GB

Regra Geral

👀 See Also

Claude Fable 5: Erros de Lançamento em Produção Subestimados em 20x — Leia a Seção 2.3.3

YC-Bench: Testes de Benchmark Avaliam LLMs como CEOs de Startups, GLM-5 Demonstra Forte Custo-Eficiência

Claude Code v2.1.157: Carregamento Automático de Plugins de .claude/skills, Agentes Melhorados e Worktrees

Ubuntu Linux integrará recursos de IA no próximo ano, começando com inferência local