Qwen3.5-397B MoE fonctionne avec 14 Go de RAM via un chargement d'expert paginé sur M1 Ultra

Un post Reddit de u/ur_dad_matt (via Claude) présente un moteur Paged MoE personnalisé qui fait fonctionner Qwen3.5-397B-A17B (209 Go sur disque, 512 experts, top-10 routing) sur un Mac Studio M1 Ultra 64 Go avec seulement 14 Go de RAM de pointe et une vitesse d'inférence de 1,59 tok/s. Le modèle est trop volumineux pour être chargé naïvement ; le moteur ne conserve que K=20 experts en RAM, chargeant paresseusement le reste depuis le SSD à la demande du routeur, et les évacue en cas de pression sur le cache. Le calcul utilise Float16 (plus rapide que ternaire sur MPS), natif Apple Silicon, basé sur MLX.
Résultats des benchmarks issus d'un balayage de 5 prompts sur M1 Ultra 64 Go :
- Vitesse : 1,59 tok/s (moyenne sur 5 générations cohérentes, K=20)
- Pic RSS du cache (génération) : 7,91 Go
- Pic RSS total : 14,04 Go
- Sorties cohérentes : 5/5
Configuration optimale du moteur : K_override=20, cache_gb=8.0, OUTLIER_MMAP_EXPERTS=0, lazy_load=True. Les tentatives initiales avec tous les experts sur disque ont provoqué des échecs d'allocation de tampon de commandes jusqu'à ce que la taille du cache soit ajustée.
L'auteur soutient que les benchmarks de scores bruts passent à côté de l'essentiel pour les LLM locaux sur du matériel 64 Go ; la mesure clé est le MMLU par Go de RAM. À 1,59 tok/s, le modèle fonctionne à un "rythme de réflexion" et non à un rythme de chat, démontrant la limite supérieure du rapport modèle/mémoire.
Vitesses pour des modèles quantifiés plus petits sur le même matériel (MLX-4bit) :
- 4B Nano : 71,7 tok/s
- 9B Lite : 53,4 tok/s
- 26B-A4B Quick : 14,6 tok/s
- 27B Core : 40,7 tok/s (MMLU 0,851 n=14042 σ=0,003, HumanEval 0,866 n=164 σ=0,027)
- 35B-A3B Vision : 64,1 tok/s
- 397B Plus : 1,59 tok/s
Le runtime est construit avec Tauri + Rust + MLX pour macOS. Les niveaux gratuits (Nano et Lite) sont disponibles pour toujours sur outlier.host. Une démonstration vidéo est incluse dans le post Reddit.
📖 Lire la source complète : r/LocalLLaMA
👀 See Also

Corrections pratiques pour les problèmes de fiabilité d'OpenClaw
Un développeur partage huit techniques spécifiques qui ont amélioré sa configuration OpenClaw, notamment un système de mémoire à 3 niveaux avec des journaux quotidiens et un graphe de connaissances, une gestion des scores d'activation et une application des règles basée sur des fichiers.

Flux de travail pratique avec Claude Code pour les équipes de développement
Un utilisateur de Reddit partage sa présentation interne sur les meilleures pratiques de Claude Code, incluant la sélection de modèle, les workflows structurés et des techniques de prompt spécifiques pour améliorer la qualité des résultats.

VPS vs Machine Dédiée : Où Exécuter OpenClaw
Aucun

Guide pratique pour héberger vous-même votre premier LLM
Un post Reddit énumère les raisons d'héberger soi-même des LLM, notamment la confidentialité pour les données sensibles, la prévisibilité des coûts pour les charges de travail des agents, les améliorations de performance en supprimant les allers-retours d'API, et la personnalisation via des méthodes de fine-tuning comme LoRA et QLoRA.