Taxa de Aceitação MTP: Limiar de 50% Determina o Benefício da Decodificação Especulativa

Um usuário do Reddit testou MTP (Multi-Token Prediction) usando mlx-vlm no Gemma-4 (26B, 4-bit) e descobriu que o desempenho depende totalmente da taxa de aceitação dos tokens candidatos. Medições em um M4 Max Studio mostram limites concretos.
Resultados das cargas de trabalho
- Geração de código: 75 tok/s → 114,8 tok/s (1,53× mais rápido) — taxa de aceitação: 66% das posições
- Texto longo: 75 tok/s → 71,1 tok/s (0,95×, essencialmente neutro) — taxa de aceitação: 31% das posições
- Saída JSON: 51,3 tok/s → 25,6 tok/s (0,50× mais lento) — taxa de aceitação: 8% das posições
O limite parece ser de ~50% de aceitação. Abaixo disso, a sobrecarga da decodificação especulativa supera os ganhos.
Detalhes do teste: o código foi "escreva algumas funções Python para fazer X"; o texto longo foi "escreva um ensaio de 800 palavras sobre papel-moeda na Dinastia Tang"; a saída JSON envolveu agrupar itens por similaridade em saída estruturada.
Dica bônus: O usuário observa que o Gemma segue razoavelmente bem instruções de estrutura JSON, mas ativar a saída estruturada (json_schema) adiciona ~20% de sobrecarga. Eles recomendam aceitar JSON levemente impreciso e corrigi-lo em tempo de execução. O mlx-vlm não suporta json_schema para decodificação especulativa de qualquer forma.
Conclusão: MTP é ótimo para codificação local, mas pode degradar o desempenho em tarefas estruturadas ou de texto com baixas taxas de aceitação.
📖 Leia a fonte completa: r/LocalLLaMA
👀 See Also

Correções no Harness de Verificação Resolvem o Problema de Execução do Plano do Claude
Um desenvolvedor criou uma camada de verificação de 30-50 linhas em bash ou Python que verifica se o Claude realmente executa cada etapa de seus próprios planos, confirmando artefatos como existência de arquivos, respostas de API e alterações de configuração.

Como as Instruções do Projeto Claude São Injetadas — E Por Que Alterá-las no Meio da Conversação Quebra o Histórico
Instruções do Projeto e Preferências do Usuário são carregadas no prompt do sistema no início da conversa, não são reinseridas a cada turno. Alterá-las no meio da conversa faz com que Claude sobrescreva sua memória das instruções anteriores, levando a falsas lembranças.

Desperdício de Tokens no Claude Code: Auditoria de Usuário Mostra que Correções Comportamentais Superam a Troca de Modelo
Um usuário mediu o uso de tokens no Claude Code e descobriu que /clear entre tarefas, planejar antes de editar e proibir a releitura de arquivos editados economizaram mais tokens do que trocar de modelo. Disciplina prática vence wrappers.

Agentes de Auditoria em Paralelo: Uma Abordagem Prática para Testes Codificados por Vibração com Claude
Um desenvolvedor construiu um sistema de teste de usuários com Claude usando 10 agentes de auditoria paralelos cobrindo detecção de alucinação, sentinela de API, teste de estresse de UI, anonimização de PII, SEO, conformidade legal, simulação comportamental, personas demográficas, teste de funil e verificação de fatos.