Qwen3.5-397B MoE roda em 14GB de RAM via carregamento paginado de especialistas no M1 Ultra

✍️ OpenClawRadar📅 Publicado: May 7, 2026🔗 Source
Qwen3.5-397B MoE roda em 14GB de RAM via carregamento paginado de especialistas no M1 Ultra
Ad

Uma postagem no Reddit de u/ur_dad_matt (via Claude) demonstra um mecanismo Paged MoE personalizado que executa o Qwen3.5-397B-A17B (209GB em disco, 512 especialistas, roteamento top-10) em um Mac Studio M1 Ultra 64GB com apenas 14GB de pico de RAM e velocidade de inferência de 1,59 tok/s. O modelo é grande demais para ser carregado ingenuamente; o mecanismo mantém apenas K=20 especialistas residentes na RAM, carregando os demais do SSD sob demanda do roteador, com despejo quando há pressão no cache. A computação usa Float16 (mais rápido que ternário no MPS), nativo do Apple Silicon, baseado em MLX.

Resultados de benchmark de uma varredura de 5 prompts no M1 Ultra 64GB:

  • Velocidade: 1,59 tok/s (média em 5 gerações coerentes, K=20)
  • Pico de RSS do cache (geração): 7,91 GB
  • Pico total de RSS: 14,04 GB
  • Saídas coerentes: 5/5

Configuração ideal do mecanismo: K_override=20, cache_gb=8.0, OUTLIER_MMAP_EXPERTS=0, lazy_load=True. Tentativas iniciais com todos os especialistas em disco causaram falhas de alocação de buffer de comando até que o tamanho do cache fosse ajustado.

Ad

O autor argumenta que benchmarks de pontuação bruta perdem o sentido para LLMs locais em hardware de 64GB; a métrica chave é MMLU por GB de RAM. A 1,59 tok/s o modelo funciona em "ritmo de pensamento", não em ritmo de chat, demonstrando o limite superior da razão modelo-memória.

Velocidades para modelos quantizados menores no mesmo hardware (MLX-4bit):

  • 4B Nano: 71,7 tok/s
  • 9B Lite: 53,4 tok/s
  • 26B-A4B Quick: 14,6 tok/s
  • 27B Core: 40,7 tok/s (MMLU 0,851 n=14042 σ=0,003, HumanEval 0,866 n=164 σ=0,027)
  • 35B-A3B Vision: 64,1 tok/s
  • 397B Plus: 1,59 tok/s

O runtime é construído com Tauri + Rust + MLX para macOS. Camadas gratuitas (Nano e Lite) estão disponíveis para sempre em outlier.host. Um vídeo de demonstração está incluído na postagem do Reddit.

📖 Leia a fonte completa: r/LocalLLaMA

Ad

👀 See Also

Trellis 2 Executando com Sucesso no ROCm 7.11 com AMD RX 9070 XT
Guides

Trellis 2 Executando com Sucesso no ROCm 7.11 com AMD RX 9070 XT

Um desenvolvedor conseguiu fazer o Trellis 2 funcionar no Linux Mint 22.3 com uma AMD RX 9070 XT usando ROCm 7.11, corrigindo dois problemas principais: instabilidade do ROCm com tensores N altos e uma função hipMemcpy2D quebrada no CuMesh.

OpenClawRadar
Configurando Servidores MCP no Web UI do llama-server: Um Guia Prático
Guides

Configurando Servidores MCP no Web UI do llama-server: Um Guia Prático

Um usuário do Reddit compartilha etapas específicas para configurar servidores MCP na interface web do llama-server, incluindo instalação do uv, criação de um arquivo config.json com definições de servidores, execução do mcp-proxy e modificação de URLs para integração adequada.

OpenClawRadar
Como evitar custos inesperados do OpenRouter na automação do OpenClaw
Guides

Como evitar custos inesperados do OpenRouter na automação do OpenClaw

Uma equipe de desenvolvedores gastou acidentalmente US$ 750 em 3 dias no OpenRouter ao usar Claude Sonnet 4.6 (US$ 3/milhão de tokens) como padrão em todas as tarefas de automação. Eles reduziram os custos em 97% alterando os modelos padrão, bloqueando cron jobs e subagentes para opções mais baratas e reservando modelos caros apenas para trabalhos sensíveis.

OpenClawRadar
Conselhos Práticos de Arquitetura de Sistemas Multiagentes Baseados na Experiência
Guides

Conselhos Práticos de Arquitetura de Sistemas Multiagentes Baseados na Experiência

Um desenvolvedor compartilha cinco padrões específicos para construir sistemas de IA multiagente com base na experiência de executar um sistema diário de 7 agentes: comece com um agente, use o padrão orquestrador, implemente memória compartilhada com arquivos JSON, direcione modelos por tarefa e adicione loops de confirmação.

OpenClawRadar