APEX MoE Quantification : 25+ Nouveaux Modèles & I-Nano 2,06 bpw

La stratégie de quantification APEX (mixte-précision consciente des MoE) s'est considérablement développée depuis sa sortie initiale pour Qwen 3.5 35B-A3B. La collection Hugging Face comprend désormais plus de 30 modèles MoE des principales familles, et un nouveau palier ultra-compressé I-Nano est désormais disponible.

Résultats clés des retours utilisateurs

Contexte long tenu : Les versions APEX I-Balanced et I-Compact maintiennent la cohérence au-delà de 32k tokens sur les MoE de classe 30-50B, là où le Q4_K uniforme se dégrade. L'hypothèse est que le maintien d'une haute précision pour les experts partagés et les couches de bord préserve le routage des tokens à longue distance.
Performances en codage : Les utilisateurs de Qwen 3.6 35B-A3B rapportent que I-Compact et I-Mini restent proches du F16 sur des tâches de code réelles, mieux que ce que laisserait supposer leur taille.

Nouveaux modèles ajoutés

Regroupés par famille, la plupart sont des MoE de 30-70B de classe adaptés à un GPU grand public en I-Mini/I-Compact :

Qwen : Qwen 3.5 122B-A10B, 397B-A17B, Claude-distillé, Fernflower, TQ ; Qwen 3.6 35B-A3B (heretic, distillats Claude 4.6/4.7) ; Qwen3-Coder 30B, Next.
Taille frontière (Blackwell loué) : MiniMax-M2.5/M2.7 (228B/24B actifs), Mistral-Small 4 119B-2603, NVIDIA Nemotron-3-Super 120B-A12B, GLM-4.7 Flash, Step-3.5 Flash, Nemotron-3-Nano 30B-A3B, Nemotron-3-Nano-Omni (multimodal), Holo3 35B-A3B, Huihui3.5 67B-A3B.
MoE hybrides Mamba/SSM : Variantes Nemotron-3-Nano, Holo3, LFM2 24B-A2B.
Gemma 4 : gemma-4 26B-A4B-it (requantifié avec le modèle de chat Google mis à jour), +distillat Claude Opus, +heretic, Gemopus-4 Preview.
Fusions communautaires : Carnice MoE 35B-A3B, Carnice-Qwen3.6, Qwopus MoE 35B-A3B.

Nouveau palier : I-Nano (IQ2_XXS)

Descend les experts routés des couches intermédiaires à 2,06 bpw, les couches quasi-bord à IQ2_S, les bords à Q3_K, et les experts partagés à Q5_K. Environ 20% plus petit que I-Mini, viable uniquement sur MoE grâce à l'activation sparse des experts. Nécessite imatrix.

Exemples de tailles :

Qwen 3.5 35B-A3B : I-Mini 13 Go → I-Nano 11 Go
Nemotron Omni 30B : I-Mini 18 Go → I-Nano 17 Go (moins d'économie en raison de l'expert partagé plus dense)