Qwen3.5-397B MoE se ejecuta con 14 GB de RAM mediante carga experta paginada en M1 Ultra

Una publicación en Reddit de u/ur_dad_matt (vía Claude) demuestra un motor MoE paginado personalizado que ejecuta Qwen3.5-397B-A17B (209GB en disco, 512 expertos, enrutamiento top-10) en un Mac Studio M1 Ultra de 64GB con solo 14GB de RAM pico y una velocidad de inferencia de 1.59 tok/s. El modelo es demasiado grande para cargarlo de forma ingenua; el motor mantiene solo K=20 expertos residentes en RAM, paginando el resto desde SSD bajo demanda del enrutador y desalojando bajo presión de caché. El cómputo usa Float16 (más rápido que ternario en MPS), nativo de Apple Silicon, basado en MLX.
Resultados de benchmark de un barrido de 5 prompts en M1 Ultra 64GB:
- Velocidad: 1.59 tok/s (media en 5 generaciones coherentes, K=20)
- Pico de RSS de caché (generación): 7.91 GB
- Pico de RSS total: 14.04 GB
- Salidas coherentes: 5/5
Configuración óptima del motor: K_override=20, cache_gb=8.0, OUTLIER_MMAP_EXPERTS=0, lazy_load=True. Los intentos iniciales con todos los expertos en disco causaron fallos de asignación de buffer de comando hasta que se ajustó el tamaño de caché.
El autor argumenta que los benchmarks de puntuación bruta no son relevantes para LLMs locales en hardware de 64GB; la métrica clave es MMLU por GB de RAM. A 1.59 tok/s, el modelo funciona a "ritmo de pensamiento", no a ritmo de chat, demostrando el límite superior de la relación modelo-memoria.
Velocidades para modelos cuantizados más pequeños en el mismo hardware (MLX-4bit):
- 4B Nano: 71.7 tok/s
- 9B Lite: 53.4 tok/s
- 26B-A4B Quick: 14.6 tok/s
- 27B Core: 40.7 tok/s (MMLU 0.851 n=14042 σ=0.003, HumanEval 0.866 n=164 σ=0.027)
- 35B-A3B Vision: 64.1 tok/s
- 397B Plus: 1.59 tok/s
El runtime está construido con Tauri + Rust + MLX para macOS. Los niveles gratuitos (Nano y Lite) están disponibles para siempre en outlier.host. Se incluye una demostración en video en la publicación de Reddit.
📖 Lee la fuente completa: r/LocalLLaMA
👀 Ver también

5 Capacidades Principales de OpenClaw Disponibles Sin Instalar Habilidades
La instalación base de OpenClaw puede manejar operaciones de archivos, comandos de terminal, obtención web, tareas programadas y flujos de trabajo de múltiples pasos sin habilidades adicionales, reduciendo costos de tokens y complejidad de configuración.

OpenClaw 102: Consejos Actualizados de Configuración para Seguridad y Eficiencia
Un usuario de Reddit comparte consejos actualizados sobre la configuración de OpenClaw, incluyendo el cifrado de claves API con scripts de Windows PowerShell, defensas contra inyección de prompts en AGENTS.md, el uso de Tailscale para acceso remoto y reglas anti-bucle para evitar fallos repetitivos.

100 Consejos para Construir un Agente de IA Personal: Del Prototipo en la Nube a la Producción
Seis semanas construyendo un agente de IA persistente — no un envoltorio de chatbot — que gestiona tareas, rastrea acuerdos, lee correos electrónicos y analiza datos. Lecciones clave: escribe una Constitución, no un prompt de sistema; usa archivos markdown planos para la memoria; y versiona tu archivo de identidad en git.

Construyendo una plataforma de agentes de IA sin servidor en AWS por $0.01/mes con Claude Code
Un desarrollador construyó una plataforma serverless completa en AWS que ejecuta agentes de IA por aproximadamente $0.01/mes usando Claude Code durante 29 horas, eliminando componentes costosos como NAT Gateway ($32/mes) y ALB ($18/mes). El proyecto incluye 233 pruebas unitarias, 35 pruebas E2E y se despliega con un solo comando cdk deploy.