12.99 Tok/s no M5 Max: Benchmark Flash-MOE com Qwen3.5-397B

Resultados de Desempenho

Um usuário testou a implementação flash-moe em um MacBook Pro M5 Max com 128GB de memória unificada, executando o modelo mlx-community/Qwen3.5-397B-A17B-4bit. O benchmark original de Dan Woods em um M3 Max com 48GB de RAM alcançou 4,36 tokens por segundo. No M5 Max, a configuração padrão com quantização de 4 bits e sem cache-io-split atingiu 12,48 tok/s. Com a configuração ideal --cache-io-split 4, o desempenho aumentou para 12,99 tok/s, tornando-o três vezes mais rápido que o benchmark original.

Análise do Cache-IO-Split

O usuário realizou uma varredura completa dos valores de cache-io-split usando o fork Anemll do flash-moe, que adiciona suporte Metal 4 NAX para chips M5+. Os resultados mostram que as divisões 2 e 3 degradam o desempenho, enquanto a divisão 4 fornece a melhor otimização:

cache-io-split 1 (nenhum): 12,48 tok/s, 28,4ms de I/O por token
cache-io-split 2: 9,94 tok/s, 28,2ms de I/O por token
cache-io-split 3: 9,99 tok/s, 36,1ms de I/O por token
cache-io-split 4: 12,99 tok/s, 25,9ms de I/O por token
cache-io-split 5: 12,64 tok/s, 27,5ms de I/O por token
cache-io-split 8: 12,90 tok/s, 26,4ms de I/O por token

A análise sugere que a divisão 4 se alinha com o paralelismo interno do controlador SSD do M5 Max, enquanto valores mais altos adicionam sobrecarga de agendamento. A recomendação é usar --cache-io-split 4 ou nenhuma divisão, evitando as divisões 2 e 3.

Comparação de Quantização

Testes de quantização de 2 bits versus 4 bits revelaram que 2 bits não oferece vantagem de velocidade no M5 Max, com a velocidade do SSD tornando arquivos menores desnecessários e a sobrecarga de desquantização cancelando quaisquer ganhos. A qualidade sofre significativamente com 2 bits:

4 bits: 12,99 tok/s, 3,64 perplexidade no WikiText-2
2 bits: ~12,65 tok/s, 5,71 perplexidade no WikiText-2 (57% pior)

A conclusão é usar quantização de 4 bits para melhor qualidade sem sacrificar velocidade.

Detalhes Técnicos

O benchmark usou o fork Anemll disponível em https://github.com/Anemll/flash-moe. O desempenho sustentado permaneceu estável em 11,23 tok/s ao longo de 1000 tokens sem degradação. O usuário observou que processos em segundo plano usando Metal/GPU, como o LM Studio, podem impactar significativamente o desempenho e devem ser fechados durante os testes.

📖 Leia a fonte completa: r/LocalLLaMA

Benchmark Flash-MOE no M5 Max: 12.99 tok/s com Qwen3.5-397B

Resultados de Desempenho

Análise do Cache-IO-Split

Comparação de Quantização

Detalhes Técnicos

👀 See Also

Estrutura de Scaffold Resolve Problemas de Memória e Fluxo de Trabalho do Código Claude

Plano Mestre: Um Sistema de Tarefas em Terminal Mínimo Criado para Usuários de Código Claude

Sessão Sifão: Ferramenta de Código Aberto Consolida Conversas de Agentes de IA de Programação

Protocolo de Memória Aberta: Um Armazenamento de Memória para Claude, ChatGPT, Cursor