MTP: Limiar de 50% Determina Benefício da Decodificação Especulativa

Um usuário do Reddit testou MTP (Multi-Token Prediction) usando mlx-vlm no Gemma-4 (26B, 4-bit) e descobriu que o desempenho depende totalmente da taxa de aceitação dos tokens candidatos. Medições em um M4 Max Studio mostram limites concretos.

Resultados das cargas de trabalho

Geração de código: 75 tok/s → 114,8 tok/s (1,53× mais rápido) — taxa de aceitação: 66% das posições
Texto longo: 75 tok/s → 71,1 tok/s (0,95×, essencialmente neutro) — taxa de aceitação: 31% das posições
Saída JSON: 51,3 tok/s → 25,6 tok/s (0,50× mais lento) — taxa de aceitação: 8% das posições

O limite parece ser de ~50% de aceitação. Abaixo disso, a sobrecarga da decodificação especulativa supera os ganhos.

Detalhes do teste: o código foi "escreva algumas funções Python para fazer X"; o texto longo foi "escreva um ensaio de 800 palavras sobre papel-moeda na Dinastia Tang"; a saída JSON envolveu agrupar itens por similaridade em saída estruturada.

Dica bônus: O usuário observa que o Gemma segue razoavelmente bem instruções de estrutura JSON, mas ativar a saída estruturada (json_schema) adiciona ~20% de sobrecarga. Eles recomendam aceitar JSON levemente impreciso e corrigi-lo em tempo de execução. O mlx-vlm não suporta json_schema para decodificação especulativa de qualquer forma.

Conclusão: MTP é ótimo para codificação local, mas pode degradar o desempenho em tarefas estruturadas ou de texto com baixas taxas de aceitação.

📖 Leia a fonte completa: r/LocalLLaMA

Taxa de Aceitação MTP: Limiar de 50% Determina o Benefício da Decodificação Especulativa

Resultados das cargas de trabalho

👀 See Also

A maioria das pessoas usa Claude a 5% da sua capacidade – Veja como corrigir isso

O Método da Sogra: Usando a Amabilidade de Claude para Revisões de Código Brutais

Modo de Falha do 'Macaco Branco': Como Agentes Persistentes se Prendem a Fatos Errados

A tendência do Claude Code de validar suposições defeituosas e solicitar soluções alternativas