Qwen3.5-397B MoE roda em 14GB de RAM via carregamento paginado de especialistas no M1 Ultra

Uma postagem no Reddit de u/ur_dad_matt (via Claude) demonstra um mecanismo Paged MoE personalizado que executa o Qwen3.5-397B-A17B (209GB em disco, 512 especialistas, roteamento top-10) em um Mac Studio M1 Ultra 64GB com apenas 14GB de pico de RAM e velocidade de inferência de 1,59 tok/s. O modelo é grande demais para ser carregado ingenuamente; o mecanismo mantém apenas K=20 especialistas residentes na RAM, carregando os demais do SSD sob demanda do roteador, com despejo quando há pressão no cache. A computação usa Float16 (mais rápido que ternário no MPS), nativo do Apple Silicon, baseado em MLX.
Resultados de benchmark de uma varredura de 5 prompts no M1 Ultra 64GB:
- Velocidade: 1,59 tok/s (média em 5 gerações coerentes, K=20)
- Pico de RSS do cache (geração): 7,91 GB
- Pico total de RSS: 14,04 GB
- Saídas coerentes: 5/5
Configuração ideal do mecanismo: K_override=20, cache_gb=8.0, OUTLIER_MMAP_EXPERTS=0, lazy_load=True. Tentativas iniciais com todos os especialistas em disco causaram falhas de alocação de buffer de comando até que o tamanho do cache fosse ajustado.
O autor argumenta que benchmarks de pontuação bruta perdem o sentido para LLMs locais em hardware de 64GB; a métrica chave é MMLU por GB de RAM. A 1,59 tok/s o modelo funciona em "ritmo de pensamento", não em ritmo de chat, demonstrando o limite superior da razão modelo-memória.
Velocidades para modelos quantizados menores no mesmo hardware (MLX-4bit):
- 4B Nano: 71,7 tok/s
- 9B Lite: 53,4 tok/s
- 26B-A4B Quick: 14,6 tok/s
- 27B Core: 40,7 tok/s (MMLU 0,851 n=14042 σ=0,003, HumanEval 0,866 n=164 σ=0,027)
- 35B-A3B Vision: 64,1 tok/s
- 397B Plus: 1,59 tok/s
O runtime é construído com Tauri + Rust + MLX para macOS. Camadas gratuitas (Nano e Lite) estão disponíveis para sempre em outlier.host. Um vídeo de demonstração está incluído na postagem do Reddit.
📖 Leia a fonte completa: r/LocalLLaMA
👀 See Also

Trellis 2 Executando com Sucesso no ROCm 7.11 com AMD RX 9070 XT
Um desenvolvedor conseguiu fazer o Trellis 2 funcionar no Linux Mint 22.3 com uma AMD RX 9070 XT usando ROCm 7.11, corrigindo dois problemas principais: instabilidade do ROCm com tensores N altos e uma função hipMemcpy2D quebrada no CuMesh.

Configurando Servidores MCP no Web UI do llama-server: Um Guia Prático
Um usuário do Reddit compartilha etapas específicas para configurar servidores MCP na interface web do llama-server, incluindo instalação do uv, criação de um arquivo config.json com definições de servidores, execução do mcp-proxy e modificação de URLs para integração adequada.

Como evitar custos inesperados do OpenRouter na automação do OpenClaw
Uma equipe de desenvolvedores gastou acidentalmente US$ 750 em 3 dias no OpenRouter ao usar Claude Sonnet 4.6 (US$ 3/milhão de tokens) como padrão em todas as tarefas de automação. Eles reduziram os custos em 97% alterando os modelos padrão, bloqueando cron jobs e subagentes para opções mais baratas e reservando modelos caros apenas para trabalhos sensíveis.

Conselhos Práticos de Arquitetura de Sistemas Multiagentes Baseados na Experiência
Um desenvolvedor compartilha cinco padrões específicos para construir sistemas de IA multiagente com base na experiência de executar um sistema diário de 7 agentes: comece com um agente, use o padrão orquestrador, implemente memória compartilhada com arquivos JSON, direcione modelos por tarefa e adicione loops de confirmação.