Comparativo de Inferência M5 Max vs M3 Max para Modelos Qwen no oMLX

O usuário do Reddit /u/onil_gova executou benchmarks de inferência comparando MacBook Pros de 16 polegadas com processadores M5 Max e M3 Max, ambos equipados com 40 núcleos GPU e 128GB de memória unificada. Os testes usaram oMLX v0.2.23 e três modelos Qwen 3.5: o 122B-A10B MoE, 35B-A3B MoE e 27B denso.
Resultados dos Benchmarks
Em pp1024/tg128 (comprimento de processamento do prompt 1024, comprimento de geração de token 128), o M5 Max mostrou melhorias significativas de velocidade:
- 35B-A3B MoE: 134,5 vs 80,3 tg tok/s (1,7x mais rápido)
- 122B-A10B MoE: 65,3 vs 46,1 tg tok/s (1,4x mais rápido)
- 27B denso: 32,8 vs 23,0 tg tok/s (1,4x mais rápido)
A diferença de desempenho aumenta com contextos mais longos. Em comprimento de contexto de 65K, o modelo 27B denso caiu para 6,8 tg tok/s no M3 Max versus 19,6 tg tok/s no M5 Max (diferença de 2,9x).
Desempenho de Preenchimento Prévio e Loteamento
As vantagens de preenchimento prévio foram ainda maiores, chegando a até 4x mais rápido no M5 Max em comprimentos de contexto longos, atribuído aos Aceleradores Neurais GPU do M5 Max.
O desempenho de loteamento mostrou diferenças importantes para cargas de trabalho agentivas:
- M5 Max escalou para 2,54x de throughput em tamanho de lote 4x no modelo 35B-A3B
- O loteamento do M3 Max em modelos densos degradou o desempenho (0,80x em lote 2x no modelo 122B)
A diferença de largura de banda (614 GB/s no M5 Max vs 400 GB/s no M3 Max) é significativa para loops agentivos de múltiplas etapas ou chamadas de ferramentas paralelas.
Insights sobre Eficiência MoE
Os benchmarks revelaram que o modelo 122B (com 10B parâmetros ativos) gera mais rápido que o modelo 27B denso em ambas as máquinas. Isso demonstra que a contagem de parâmetros ativos determina a velocidade de inferência, não o tamanho total do modelo.
A análise interativa completa com todos os gráficos e dados está disponível em: https://claude.ai/public/artifacts/c9fba245-e734-4b3b-be44-a6cabdec6f8f
📖 Read the full source: r/LocalLLaMA
👀 See Also

Por que a Arquitetura de Código Aberto do OpenClaw é Importante
Nenhum

OpenAI vai implantar modelos de IA na rede classificada do Departamento de Guerra dos EUA
A OpenAI chegou a um acordo para implantar seus modelos de IA na rede classificada do Departamento de Guerra dos EUA, com implementação prevista para 2026. O artigo da Reuters gerou 15 pontos e 6 comentários no Hacker News.

Detalhes do Acordo de Direitos Autorais da Anthropic para Desenvolvedores
A Anthropic resolveu uma ação coletiva de direitos autorais de US$ 1,5 bilhão por usar obras para treinar modelos de IA. Proprietários de direitos autorais elegíveis podem reivindicar US$ 500–US$ 3.000 por obra validada, com prazo até 23 de março de 2026.

Anthropic lança conector Blender MCP – Claude agora controla Blender via API Python
A Anthropic lançou um conector oficial do Blender MCP junto com conectores para Adobe, Splice e SketchUp, permitindo que Claude construa cenas 3D a partir de comandos em linguagem natural em tempo real.