Inférence Qwen3.5 397B à 5-9 tokens/s sur Bureau 2100$

Ce que FOMOE résout

Les grands modèles Mixture of Experts (MoE) nécessitent des centaines de Go de stockage de poids, généralement dans une mémoire flash comme le NVMe. Pendant l'inférence, seule une petite fraction des poids est nécessaire, mais on ne peut pas prédire à l'avance lesquels. Les modèles d'accès aléatoires rendent les latences de la mémoire flash trop élevées pour une inférence pratique sur du matériel grand public.

Comment fonctionne FOMOE

Le système rend la plupart des lectures de poids d'experts inutiles grâce à plusieurs techniques :

Stocke les experts les plus courants dans la mémoire GPU (VRAM) avec un cache d'experts roulant à jour
Atteint un taux de succès VRAM de 60% avec un démarrage à chaud, réduisant les lectures NVMe à 28% (12% servis depuis la DRAM)
Utilise une architecture ping-pong à double GPU pour superposer le chargement des poids et le calcul
Implémente le Cache-Aware Routing (CAR) - lorsque deux experts ont des scores similaires, le modèle choisit l'expert suivant le mieux noté déjà présent dans le cache VRAM ou DRAM dans un seuil acceptable

Résultats de performance

Vitesse d'inférence de 5 à 9 tokens/seconde pour le modèle Qwen3.5 à 397 milliards de paramètres
Lectures NVMe réduites à 7% avec CAR activé
Seulement 3,5% de baisse de perplexité mesurée sur wikitext
Configuration matérielle requise : deux GPU à 500$, 32 Go de RAM, un disque NVMe
Utilise la quantification Q4_K_M

L'implémentation consiste en environ 15 000 lignes de code C/HIP piloté par Claude avec une forte guidance humaine.

📖 Read the full source: r/LocalLLaMA

FOMOE Permet l'Inférence du Modèle Qwen3.5 de 397B sur un Matériel de Bureau à 2 100 $

Ce que FOMOE résout

Comment fonctionne FOMOE

Résultats de performance

👀 See Also

CLAUDE.md : Un fichier prêt à l'emploi réduit de 63 % les tokens de sortie de Claude

Architect CLI : Outil open-source pour orchestrer des agents d'IA sans interface dans CI/CD

Fondateur d'AgentMail détaille l'intégration native aux agents après qu'OpenClaw ait exposé le blocage CAPTCHA

PromptForest : Détection d'injection de prompts local-first avec incertitude