Qwen3.5-397B MoE en 14 GB RAM: Carga experta paginada

Una publicación en Reddit de u/ur_dad_matt (vía Claude) demuestra un motor MoE paginado personalizado que ejecuta Qwen3.5-397B-A17B (209GB en disco, 512 expertos, enrutamiento top-10) en un Mac Studio M1 Ultra de 64GB con solo 14GB de RAM pico y una velocidad de inferencia de 1.59 tok/s. El modelo es demasiado grande para cargarlo de forma ingenua; el motor mantiene solo K=20 expertos residentes en RAM, paginando el resto desde SSD bajo demanda del enrutador y desalojando bajo presión de caché. El cómputo usa Float16 (más rápido que ternario en MPS), nativo de Apple Silicon, basado en MLX.

Resultados de benchmark de un barrido de 5 prompts en M1 Ultra 64GB:

Velocidad: 1.59 tok/s (media en 5 generaciones coherentes, K=20)
Pico de RSS de caché (generación): 7.91 GB
Pico de RSS total: 14.04 GB
Salidas coherentes: 5/5

Configuración óptima del motor: K_override=20, cache_gb=8.0, OUTLIER_MMAP_EXPERTS=0, lazy_load=True. Los intentos iniciales con todos los expertos en disco causaron fallos de asignación de buffer de comando hasta que se ajustó el tamaño de caché.

El autor argumenta que los benchmarks de puntuación bruta no son relevantes para LLMs locales en hardware de 64GB; la métrica clave es MMLU por GB de RAM. A 1.59 tok/s, el modelo funciona a "ritmo de pensamiento", no a ritmo de chat, demostrando el límite superior de la relación modelo-memoria.

Velocidades para modelos cuantizados más pequeños en el mismo hardware (MLX-4bit):

4B Nano: 71.7 tok/s
9B Lite: 53.4 tok/s
26B-A4B Quick: 14.6 tok/s
27B Core: 40.7 tok/s (MMLU 0.851 n=14042 σ=0.003, HumanEval 0.866 n=164 σ=0.027)
35B-A3B Vision: 64.1 tok/s
397B Plus: 1.59 tok/s

El runtime está construido con Tauri + Rust + MLX para macOS. Los niveles gratuitos (Nano y Lite) están disponibles para siempre en outlier.host. Se incluye una demostración en video en la publicación de Reddit.

📖 Lee la fuente completa: r/LocalLLaMA

Qwen3.5-397B MoE se ejecuta con 14 GB de RAM mediante carga experta paginada en M1 Ultra

👀 Ver también

Aprovechando las habilidades de los agentes para escribir núcleos CUDA con Upskill.

Construyendo un Asistente Multiagente Totalmente Local con OpenClaw y Ollama

OpenClaw 4.1 con Gemma 4 Stack: Arquitectura Híbrida y Correcciones de Configuración

Lista de Verificación para la Actualización de OpenClaw 3.22: Pasos Prácticos de un Desarrollador que Aprendió por las Malas