M5 Max vs M3 Max: Comparativo de Inferência em Modelos Qwen

O usuário do Reddit /u/onil_gova executou benchmarks de inferência comparando MacBook Pros de 16 polegadas com processadores M5 Max e M3 Max, ambos equipados com 40 núcleos GPU e 128GB de memória unificada. Os testes usaram oMLX v0.2.23 e três modelos Qwen 3.5: o 122B-A10B MoE, 35B-A3B MoE e 27B denso.

Resultados dos Benchmarks

Em pp1024/tg128 (comprimento de processamento do prompt 1024, comprimento de geração de token 128), o M5 Max mostrou melhorias significativas de velocidade:

35B-A3B MoE: 134,5 vs 80,3 tg tok/s (1,7x mais rápido)
122B-A10B MoE: 65,3 vs 46,1 tg tok/s (1,4x mais rápido)
27B denso: 32,8 vs 23,0 tg tok/s (1,4x mais rápido)

A diferença de desempenho aumenta com contextos mais longos. Em comprimento de contexto de 65K, o modelo 27B denso caiu para 6,8 tg tok/s no M3 Max versus 19,6 tg tok/s no M5 Max (diferença de 2,9x).

Desempenho de Preenchimento Prévio e Loteamento

As vantagens de preenchimento prévio foram ainda maiores, chegando a até 4x mais rápido no M5 Max em comprimentos de contexto longos, atribuído aos Aceleradores Neurais GPU do M5 Max.

O desempenho de loteamento mostrou diferenças importantes para cargas de trabalho agentivas:

M5 Max escalou para 2,54x de throughput em tamanho de lote 4x no modelo 35B-A3B
O loteamento do M3 Max em modelos densos degradou o desempenho (0,80x em lote 2x no modelo 122B)

A diferença de largura de banda (614 GB/s no M5 Max vs 400 GB/s no M3 Max) é significativa para loops agentivos de múltiplas etapas ou chamadas de ferramentas paralelas.

Insights sobre Eficiência MoE

Os benchmarks revelaram que o modelo 122B (com 10B parâmetros ativos) gera mais rápido que o modelo 27B denso em ambas as máquinas. Isso demonstra que a contagem de parâmetros ativos determina a velocidade de inferência, não o tamanho total do modelo.

A análise interativa completa com todos os gráficos e dados está disponível em: https://claude.ai/public/artifacts/c9fba245-e734-4b3b-be44-a6cabdec6f8f

📖 Read the full source: r/LocalLLaMA

Comparativo de Inferência M5 Max vs M3 Max para Modelos Qwen no oMLX

Resultados dos Benchmarks

Desempenho de Preenchimento Prévio e Loteamento

Insights sobre Eficiência MoE

👀 See Also

Waymo Lança Operações Totalmente Autônomas com Motorista de 6ª Geração

Claude Code v2.1.128: Isolamento OTEL, correções MCP, suporte a plugins .zip e mais de 20 correções de bugs

Análise: Comparando a Indústria de IA aos Padrões da Crise Hipotecária Subprime

A Anthropic restringe as assinaturas do Claude por meio de plataformas de terceiros como a OpenClaw.