Qwen3.5-397B MoE Roda em 14GB de RAM no M1 Ultra com Carregamento Paginado

Uma postagem no Reddit de u/ur_dad_matt (via Claude) demonstra um mecanismo Paged MoE personalizado que executa o Qwen3.5-397B-A17B (209GB em disco, 512 especialistas, roteamento top-10) em um Mac Studio M1 Ultra 64GB com apenas 14GB de pico de RAM e velocidade de inferência de 1,59 tok/s. O modelo é grande demais para ser carregado ingenuamente; o mecanismo mantém apenas K=20 especialistas residentes na RAM, carregando os demais do SSD sob demanda do roteador, com despejo quando há pressão no cache. A computação usa Float16 (mais rápido que ternário no MPS), nativo do Apple Silicon, baseado em MLX.

Resultados de benchmark de uma varredura de 5 prompts no M1 Ultra 64GB:

Velocidade: 1,59 tok/s (média em 5 gerações coerentes, K=20)
Pico de RSS do cache (geração): 7,91 GB
Pico total de RSS: 14,04 GB
Saídas coerentes: 5/5

Configuração ideal do mecanismo: K_override=20, cache_gb=8.0, OUTLIER_MMAP_EXPERTS=0, lazy_load=True. Tentativas iniciais com todos os especialistas em disco causaram falhas de alocação de buffer de comando até que o tamanho do cache fosse ajustado.

O autor argumenta que benchmarks de pontuação bruta perdem o sentido para LLMs locais em hardware de 64GB; a métrica chave é MMLU por GB de RAM. A 1,59 tok/s o modelo funciona em "ritmo de pensamento", não em ritmo de chat, demonstrando o limite superior da razão modelo-memória.

Velocidades para modelos quantizados menores no mesmo hardware (MLX-4bit):

4B Nano: 71,7 tok/s
9B Lite: 53,4 tok/s
26B-A4B Quick: 14,6 tok/s
27B Core: 40,7 tok/s (MMLU 0,851 n=14042 σ=0,003, HumanEval 0,866 n=164 σ=0,027)
35B-A3B Vision: 64,1 tok/s
397B Plus: 1,59 tok/s

O runtime é construído com Tauri + Rust + MLX para macOS. Camadas gratuitas (Nano e Lite) estão disponíveis para sempre em outlier.host. Um vídeo de demonstração está incluído na postagem do Reddit.

📖 Leia a fonte completa: r/LocalLLaMA

Qwen3.5-397B MoE roda em 14GB de RAM via carregamento paginado de especialistas no M1 Ultra

👀 See Also

Escalando Código Agêntico para Mais de 150 PRs/Semana: Lições de US$ 85 Mil em Tokens na Lovable

Anthropic publica o Kit Campeão para adoção do Claude Code

Fluxo de Trabalho de IA Estruturado com Comandos Baseados em Fases para Reduzir Retrabalho

OpenClaw 101: O Guia Definitivo de Configuração para Novos Usuários