FOMOE Permet l'Inférence du Modèle Qwen3.5 de 397B sur un Matériel de Bureau à 2 100 $

Ce que FOMOE résout
Les grands modèles Mixture of Experts (MoE) nécessitent des centaines de Go de stockage de poids, généralement dans une mémoire flash comme le NVMe. Pendant l'inférence, seule une petite fraction des poids est nécessaire, mais on ne peut pas prédire à l'avance lesquels. Les modèles d'accès aléatoires rendent les latences de la mémoire flash trop élevées pour une inférence pratique sur du matériel grand public.
Comment fonctionne FOMOE
Le système rend la plupart des lectures de poids d'experts inutiles grâce à plusieurs techniques :
- Stocke les experts les plus courants dans la mémoire GPU (VRAM) avec un cache d'experts roulant à jour
- Atteint un taux de succès VRAM de 60% avec un démarrage à chaud, réduisant les lectures NVMe à 28% (12% servis depuis la DRAM)
- Utilise une architecture ping-pong à double GPU pour superposer le chargement des poids et le calcul
- Implémente le Cache-Aware Routing (CAR) - lorsque deux experts ont des scores similaires, le modèle choisit l'expert suivant le mieux noté déjà présent dans le cache VRAM ou DRAM dans un seuil acceptable
Résultats de performance
- Vitesse d'inférence de 5 à 9 tokens/seconde pour le modèle Qwen3.5 à 397 milliards de paramètres
- Lectures NVMe réduites à 7% avec CAR activé
- Seulement 3,5% de baisse de perplexité mesurée sur wikitext
- Configuration matérielle requise : deux GPU à 500$, 32 Go de RAM, un disque NVMe
- Utilise la quantification Q4_K_M
L'implémentation consiste en environ 15 000 lignes de code C/HIP piloté par Claude avec une forte guidance humaine.
📖 Read the full source: r/LocalLLaMA
👀 See Also

Le Plugin Claude Code Lance DOOM dans le Terminal Pendant que l'IA Réfléchit
Un développeur a créé un plugin Claude Code qui affiche DOOM sous forme de superposition tmux pendant le traitement de l'IA. Le plugin utilise doom-ascii, un portage source de DOOM basé sur terminal, et se lance/ferme automatiquement avec les requêtes.

LightMem : Système de mémoire léger pour agents LLM avec des gains de 10×+ et un coût 100× inférieur
LightMem est un système de mémoire modulaire pour les agents LLM qui permet d'améliorer la précision jusqu'à 10,9 % tout en réduisant les tokens jusqu'à 117 fois, les appels API jusqu'à 159 fois et le temps d'exécution de plus de 12 fois. Il est conçu pour un raisonnement à contexte long et évolutif dans les flux de travail des agents.

AutoDream : système de mémoire à 11 crochets pour Claude Code avec fonctionnalités de sécurité
AutoDream est un outil open source qui ajoute une persistance de mémoire de projet et une sécurité des commandes à Claude Code. Il utilise 11 crochets sur 6 événements pour injecter du contexte, bloquer les commandes dangereuses et survivre à l'opération /compact.

Compétence de test SwiftUI open-source pour Claude Code utilisant l'utilisation informatique pour tester visuellement les applications
Une compétence open-source pour Claude Code appelée /ios-test teste visuellement les applications SwiftUI en utilisant la capacité d'utilisation de l'ordinateur. L'agent trouve les fichiers .xcodeproj, construit l'application dans un Simulateur, puis navigue à travers chaque écran, en appuyant sur les boutons et en suivant les liens comme un véritable utilisateur.