Benchmark Flash-MOE no M5 Max: 12.99 tok/s com Qwen3.5-397B

Resultados de Desempenho
Um usuário testou a implementação flash-moe em um MacBook Pro M5 Max com 128GB de memória unificada, executando o modelo mlx-community/Qwen3.5-397B-A17B-4bit. O benchmark original de Dan Woods em um M3 Max com 48GB de RAM alcançou 4,36 tokens por segundo. No M5 Max, a configuração padrão com quantização de 4 bits e sem cache-io-split atingiu 12,48 tok/s. Com a configuração ideal --cache-io-split 4, o desempenho aumentou para 12,99 tok/s, tornando-o três vezes mais rápido que o benchmark original.
Análise do Cache-IO-Split
O usuário realizou uma varredura completa dos valores de cache-io-split usando o fork Anemll do flash-moe, que adiciona suporte Metal 4 NAX para chips M5+. Os resultados mostram que as divisões 2 e 3 degradam o desempenho, enquanto a divisão 4 fornece a melhor otimização:
- cache-io-split 1 (nenhum): 12,48 tok/s, 28,4ms de I/O por token
- cache-io-split 2: 9,94 tok/s, 28,2ms de I/O por token
- cache-io-split 3: 9,99 tok/s, 36,1ms de I/O por token
- cache-io-split 4: 12,99 tok/s, 25,9ms de I/O por token
- cache-io-split 5: 12,64 tok/s, 27,5ms de I/O por token
- cache-io-split 8: 12,90 tok/s, 26,4ms de I/O por token
A análise sugere que a divisão 4 se alinha com o paralelismo interno do controlador SSD do M5 Max, enquanto valores mais altos adicionam sobrecarga de agendamento. A recomendação é usar --cache-io-split 4 ou nenhuma divisão, evitando as divisões 2 e 3.
Comparação de Quantização
Testes de quantização de 2 bits versus 4 bits revelaram que 2 bits não oferece vantagem de velocidade no M5 Max, com a velocidade do SSD tornando arquivos menores desnecessários e a sobrecarga de desquantização cancelando quaisquer ganhos. A qualidade sofre significativamente com 2 bits:
- 4 bits: 12,99 tok/s, 3,64 perplexidade no WikiText-2
- 2 bits: ~12,65 tok/s, 5,71 perplexidade no WikiText-2 (57% pior)
A conclusão é usar quantização de 4 bits para melhor qualidade sem sacrificar velocidade.
Detalhes Técnicos
O benchmark usou o fork Anemll disponível em https://github.com/Anemll/flash-moe. O desempenho sustentado permaneceu estável em 11,23 tok/s ao longo de 1000 tokens sem degradação. O usuário observou que processos em segundo plano usando Metal/GPU, como o LM Studio, podem impactar significativamente o desempenho e devem ser fechados durante os testes.
📖 Leia a fonte completa: r/LocalLLaMA
👀 See Also

A Habilidade ComfyUI Permite que Agentes de IA Enfileirem e Renderizem Imagens em Lote via Linguagem Natural
Uma nova habilidade de código aberto permite que agentes OpenClaw construam fluxos de trabalho do ComfyUI, enviem tarefas e gerenciem renderizações por meio de comandos de linguagem natural como 'Faça 50 variações deste conceito com seeds diferentes' ou 'Compare estes 4 prompts lado a lado em 1024x1024'.

O Plugin Claude Compact Guard Usa o Novo Hook PostCompact para Preservar o Contexto
Um desenvolvedor lançou o claude-compact-guard, um plugin que salva automaticamente o contexto crítico antes que o comando /compact do Claude o destrua, e depois reinjeta tudo após a compactação. Ele usa o novo gancho PostCompact da Anthropic, lançado há 4 dias.

O aplicativo OpenClaw para iOS adiciona sincronização de dados históricos do Apple Health de até 18 meses
A versão mais recente do aplicativo OpenClaw para iOS permite a exportação de dados históricos do Apple Health, permitindo que os usuários sincronizem até 18 meses de dados de saúde com seu agente para obter insights personalizados ou treinamento de IA.

Sistema de Cérebro Segunda Fonte Aberta Construído em Claude Code para Gerenciamento de Tarefas
Um sistema de código aberto chamado Kipi System usa Claude Code para rastrear conversas em aberto, redigir acompanhamentos e gerenciar tarefas, coletando dados de calendário, e-mail, CRM e feeds sociais. Ele gera um arquivo HTML diário com ações pré-escritas classificadas por dificuldade.