Qwen3.5-397B MoE : 14 Go de RAM avec Paged Expert Loading sur M1 Ultra

Un post Reddit de u/ur_dad_matt (via Claude) présente un moteur Paged MoE personnalisé qui fait fonctionner Qwen3.5-397B-A17B (209 Go sur disque, 512 experts, top-10 routing) sur un Mac Studio M1 Ultra 64 Go avec seulement 14 Go de RAM de pointe et une vitesse d'inférence de 1,59 tok/s. Le modèle est trop volumineux pour être chargé naïvement ; le moteur ne conserve que K=20 experts en RAM, chargeant paresseusement le reste depuis le SSD à la demande du routeur, et les évacue en cas de pression sur le cache. Le calcul utilise Float16 (plus rapide que ternaire sur MPS), natif Apple Silicon, basé sur MLX.

Résultats des benchmarks issus d'un balayage de 5 prompts sur M1 Ultra 64 Go :

Vitesse : 1,59 tok/s (moyenne sur 5 générations cohérentes, K=20)
Pic RSS du cache (génération) : 7,91 Go
Pic RSS total : 14,04 Go
Sorties cohérentes : 5/5

Configuration optimale du moteur : K_override=20, cache_gb=8.0, OUTLIER_MMAP_EXPERTS=0, lazy_load=True. Les tentatives initiales avec tous les experts sur disque ont provoqué des échecs d'allocation de tampon de commandes jusqu'à ce que la taille du cache soit ajustée.

L'auteur soutient que les benchmarks de scores bruts passent à côté de l'essentiel pour les LLM locaux sur du matériel 64 Go ; la mesure clé est le MMLU par Go de RAM. À 1,59 tok/s, le modèle fonctionne à un "rythme de réflexion" et non à un rythme de chat, démontrant la limite supérieure du rapport modèle/mémoire.

Vitesses pour des modèles quantifiés plus petits sur le même matériel (MLX-4bit) :

4B Nano : 71,7 tok/s
9B Lite : 53,4 tok/s
26B-A4B Quick : 14,6 tok/s
27B Core : 40,7 tok/s (MMLU 0,851 n=14042 σ=0,003, HumanEval 0,866 n=164 σ=0,027)
35B-A3B Vision : 64,1 tok/s
397B Plus : 1,59 tok/s

Le runtime est construit avec Tauri + Rust + MLX pour macOS. Les niveaux gratuits (Nano et Lite) sont disponibles pour toujours sur outlier.host. Une démonstration vidéo est incluse dans le post Reddit.

📖 Lire la source complète : r/LocalLLaMA

Qwen3.5-397B MoE fonctionne avec 14 Go de RAM via un chargement d'expert paginé sur M1 Ultra

👀 See Also

Configuration de l'espace de travail OpenClaw : Leçons tirées de deux mois d'utilisation

Résolution des Problèmes d'Autonomie de l'Agent OpenClaw : Fichiers de Compétences, Sélection d'Outils et Configuration Cron

Configuration de Qwen3.5-27B en local : Comparaison entre vLLM et llama.cpp

Création de points d'API avec Claude : Leçons pratiques d'ingénierie de prompts tirées d'un projet de 70+ endpoints