RTX 5080 16GB: Qwen3.6 35B MoE em Contexto de 128k — 56 tok/s, e Por Que o MTP Não Ajuda

O commit b9190 do llama.cpp mainline fundiu o MTP (Multi-Token Prediction). Benchmarks em uma RTX 5080 16GB com Qwen3.6 35B MoE em contexto de 128k revelam uma descoberta clara: o MTP prejudica o desempenho quando o modelo não cabe totalmente na GPU.
A Melhor Configuração (Sem MTP)
Qwen3.6-35B-A3B Q4_K_XL --fit-target 1536 em contexto de 131k produz:
- 56 tok/s de geração
- 1.584 tok/s de processamento de prompt em contexto de 128k
Nenhuma flag MTP necessária.
Por que o MTP Retarda o 35B MoE em 16GB
Três configurações testadas em comprimentos de contexto de agente de codificação:
- 27B IQ3+MTP: 12,45 GB, totalmente na GPU — média de 73 tok/s (MTP ajuda)
- 35B Q4_K_XL+MTP: ~22 GB, offload parcial — média de 74 tok/s (MTP prejudica)
- 35B Q8_0+MTP: ~36 GB, offload pesado — média de 46 tok/s
Sem MTP, o 35B Q4_K_XL atinge 97 tok/s com --fit-target 0 (15.815 MiB VRAM) e 86 tok/s com --fit-target 1536 (14.269 MiB). Com MTP ativado em --fit-target 1536, a velocidade cai para 74 tok/s (14.623 MiB) — uma redução de 23%.
A causa raiz: o buffer de computação do MTP reserva ~1,5 GB (--fit-target 1536), empurrando cerca de 3 camadas de especialistas MoE da GPU para a CPU. Como a inferência MoE sofre gargalo nas camadas de especialistas vinculadas à CPU, a taxa de aceitação de token de 79% do MTP não consegue compensar a velocidade mais lenta por etapa.
Para o modelo 27B (cabe inteiramente na GPU), --fit-target 0 funciona com ou sem MTP, portanto sem penalidade de VRAM — o MTP aumenta a velocidade de ~56 para 73 tok/s.
Regra Geral
O MTP ajuda quando seu modelo cabe na GPU. Ele prejudica quando o buffer de computação do MTP força mais camadas para a CPU. Em placas de 16GB com 35B MoE, pule o MTP.
Sistema de teste completo: RTX 5080 16GB, Ryzen 9 9950X, 128GB RAM, llama.cpp b9204 (mainline). Flags comuns do MTP: -np 1 --fit on -fa on -t 20 --no-mmap --jinja -ctk q8_0 -ctv q8_0 --spec-type draft-mtp --spec-draft-n-max 2.
📖 Leia a fonte completa: r/LocalLLaMA
👀 See Also

WSJ: CEOs enfrentam escolha difícil com IA – demissões ou acúmulo de mais trabalho
WSJ relata que CEOs estão escolhendo entre demitir funcionários ou atribuir mais trabalho a eles, à medida que ferramentas de IA prometem ganhos de produtividade, com 11 pontos na discussão do HN.

Cowork codifica esforço médio e ignora configurações do usuário para Claude Opus
Um usuário do plano Max descobriu que o Cowork passa --effort medium --model claude-opus-4-6 como flags de linha de comando fixas, ignorando variáveis de ambiente e substituições do settings.json. Isso significa que os usuários estão presos ao esforço médio e à janela de contexto padrão, apesar de pagarem por alto esforço e acesso ao contexto de 1 milhão.

Protocolo x402 permite micropagamentos autônomos aos Agentes Claude no Bedrock
O AWS AgentCore Payments permite que agentes Claude no Bedrock mantenham carteiras e façam micropagamentos USDC durante a tarefa via o padrão HTTP x402, possibilitando chamadas autônomas de API pagas e delegação de subtarefas sem aprovação humana.

A pesquisa mostra que a personalidade afeta a autocorreção do Claude, mas não a do Llama ou do Qwen.
Um pesquisador conduziu 23 experimentos testando a autocorreção sem proteções no Claude, Llama e Qwen. A principal descoberta: perfis de personalidade afetam a capacidade de autocorreção do Claude, com alta objetividade detectando todos os erros e baixa objetividade não detectando nenhum. Llama e Qwen não se autocorrigiram mesmo com prompts idênticos.