MTPLX: Tokens 2,24x Mais Rápidos no Apple Silicon Usando Cabeças MTP Nativas

MTPLX é um motor de inferência para Apple Silicon que aproveita as heads nativas de Predição Multi-Token (MTP) do modelo como rascunhadores especulativos. O resultado principal: Qwen 3.6 27B 4-bit MLX passa de 28 tok/s para 63 tok/s (2,24× mais rápido) em um MacBook Pro M5 Max com temperatura 0,6, top_p 0,95, top_k 20 — as configurações exatas que a Qwen recomenda para programação.
Como Funciona
Diferente do DFlash ou DDTree (que exigem um modelo rascunhador externo e são apenas greedy), o MTPLX usa as próprias heads MTP do modelo. Cada head MTP rascunha sequencialmente, produzindo distribuições de probabilidade por token. Isso permite amostragem exata de rejeição com temperatura e correção residual. Sem rascunhador externo significa sem uso extra de memória.
Para o Qwen 3.6 27B (que vem com heads MTP até profundidade 5), a profundidade ótima encontrada foi D3 após varredura de D2 a D5. Profundidades maiores (D4/D5) tiveram boa aceitação inicial, mas posições mais profundas custaram mais tempo de verificação do que tokens economizados.
Status vs. DFlash / DDTree
O DFlash MLX atinge maior velocidade bruta, mas é restrito à amostragem greedy (temperatura 0), limitando severamente o uso no mundo real. O DDTree herda as mesmas limitações. Ambos exigem um rascunhador externo. O MTPLX funciona com qualquer modelo que mantenha suas heads MTP e suporte inferência completa com amostragem por temperatura.
Instalação e Uso
O MTPLX é distribuído como um CLI completo com os seguintes comandos:
mtplx start wizard— configuração guiada- Download e inspeção de modelos com detecção de compatibilidade MTP em quatro níveis
- Profundidade configurável de 2 a 7+
- Servidor de API compatível com OpenAI/Anthropic, interface de chat no navegador, chat no terminal
- Suite de benchmarks, diagnóstico de saúde, controle de ventoinha com segurança contra falhas e restauração automática com detecção de inatividade
- Uma suíte de 562 testes incluída
O motor é construído sobre um fork modificado do MLX com kernels Metal personalizados, gráficos de verificação compilados, rollback GDN com fita de inovação e uma cabeça LM requantizada apenas para rascunho.
Para Quem É
Desenvolvedores que executam LLMs locais em Apple Silicon e precisam de inferência de alta taxa, com amostragem por temperatura para programação ou escrita criativa, sem sacrificar a qualidade da saída.
📖 Leia a fonte completa: r/LocalLLaMA
👀 See Also

Assistência de Configuração do OpenClaw Oferecida pela ClawSet
A ClawSet oferece serviços de configuração para o OpenClaw, com foco em entender as necessidades do cliente. O serviço inclui uma chamada de configuração por US$ 99 e um mês de suporte para solução de problemas.

Agentes Alternativos de IA para Codificação Após a Remoção do Plano do Claude
Um usuário do Reddit testou várias alternativas de agentes de IA para programação após a descontinuação do plano de programação do Claude, incluindo Kimi (US$ 20/mês), Minimax (US$ 10/mês), Z.AI GLM (US$ 10/mês), Stepfun (US$ 6-10/mês), Mistral (US$ 15/mês) e Arcee Trinity (baseado em API).

Kit de Gerenciamento de Contexto Cowork Resolve o Problema de Sobrecarga de Arquivos do Claude
Um desenvolvedor criou um kit de gerenciamento de contexto para Cowork depois que a Claude AI estava lendo todos os 462 arquivos na pasta do projeto, causando problemas de desempenho e contradições. A solução inclui instruções globais, um sistema de arquivo manifesto e uma habilidade do Cowork para priorizar documentos relevantes.

Fullerenos: Camada de memória persistente de código aberto para agentes de codificação reduz tokens em 64% no SWE-bench
Fullerenes usa um grafo de conhecimento SQLite local construído via Tree-sitter para dar a agentes de codificação como Claude Code memória persistente, reduzindo o uso de tokens em 64% no SWE-bench e até 96,6% em benchmarks internos.