Mise à jour des quantifications APEX MoE : 25+ nouveaux modèles et le palier I-Nano dévoilé

✍️ OpenClawRadar📅 Publié: May 4, 2026🔗 Source
Mise à jour des quantifications APEX MoE : 25+ nouveaux modèles et le palier I-Nano dévoilé
Ad

La stratégie de quantification APEX (mixte-précision consciente des MoE) s'est considérablement développée depuis sa sortie initiale pour Qwen 3.5 35B-A3B. La collection Hugging Face comprend désormais plus de 30 modèles MoE des principales familles, et un nouveau palier ultra-compressé I-Nano est désormais disponible.

Résultats clés des retours utilisateurs

  • Contexte long tenu : Les versions APEX I-Balanced et I-Compact maintiennent la cohérence au-delà de 32k tokens sur les MoE de classe 30-50B, là où le Q4_K uniforme se dégrade. L'hypothèse est que le maintien d'une haute précision pour les experts partagés et les couches de bord préserve le routage des tokens à longue distance.
  • Performances en codage : Les utilisateurs de Qwen 3.6 35B-A3B rapportent que I-Compact et I-Mini restent proches du F16 sur des tâches de code réelles, mieux que ce que laisserait supposer leur taille.

Nouveaux modèles ajoutés

Regroupés par famille, la plupart sont des MoE de 30-70B de classe adaptés à un GPU grand public en I-Mini/I-Compact :

  • Qwen : Qwen 3.5 122B-A10B, 397B-A17B, Claude-distillé, Fernflower, TQ ; Qwen 3.6 35B-A3B (heretic, distillats Claude 4.6/4.7) ; Qwen3-Coder 30B, Next.
  • Taille frontière (Blackwell loué) : MiniMax-M2.5/M2.7 (228B/24B actifs), Mistral-Small 4 119B-2603, NVIDIA Nemotron-3-Super 120B-A12B, GLM-4.7 Flash, Step-3.5 Flash, Nemotron-3-Nano 30B-A3B, Nemotron-3-Nano-Omni (multimodal), Holo3 35B-A3B, Huihui3.5 67B-A3B.
  • MoE hybrides Mamba/SSM : Variantes Nemotron-3-Nano, Holo3, LFM2 24B-A2B.
  • Gemma 4 : gemma-4 26B-A4B-it (requantifié avec le modèle de chat Google mis à jour), +distillat Claude Opus, +heretic, Gemopus-4 Preview.
  • Fusions communautaires : Carnice MoE 35B-A3B, Carnice-Qwen3.6, Qwopus MoE 35B-A3B.
Ad

Nouveau palier : I-Nano (IQ2_XXS)

Descend les experts routés des couches intermédiaires à 2,06 bpw, les couches quasi-bord à IQ2_S, les bords à Q3_K, et les experts partagés à Q5_K. Environ 20% plus petit que I-Mini, viable uniquement sur MoE grâce à l'activation sparse des experts. Nécessite imatrix.

Exemples de tailles :

  • Qwen 3.5 35B-A3B : I-Mini 13 Go → I-Nano 11 Go
  • Nemotron Omni 30B : I-Mini 18 Go → I-Nano 17 Go (moins d'économie en raison de l'expert partagé plus dense)

Liens

📖 Lire la source complète : r/LocalLLaMA

Ad

👀 See Also

Claude Code s'attaque à la suppression du Big Kernel Lock de QNX, en commençant par les statistiques de contention de l'espace utilisateur
News

Claude Code s'attaque à la suppression du Big Kernel Lock de QNX, en commençant par les statistiques de contention de l'espace utilisateur

Un développeur a demandé à Claude Code de reconcevoir le micro-noyau de QNX pour supprimer le gros verrou noyau. Claude a estimé 3 mois pour un développeur humain de haut niveau, puis a commencé par concevoir des statistiques de verrouillage de type /proc et corriger les sous-systèmes du noyau un par un.

OpenClawRadar
Bogue non documenté découvert dans le code de l'ordinateur de guidage d'Apollo 11 grâce à l'IA et à un langage de spécification
News

Bogue non documenté découvert dans le code de l'ordinateur de guidage d'Apollo 11 grâce à l'IA et à un langage de spécification

Des chercheurs ont découvert un bogue de verrouillage de ressource dans le code de contrôle gyroscopique de l'ordinateur de guidage Apollo, passé inaperçu pendant 57 ans, en utilisant l'IA Claude et le langage de spécification Allium pour analyser 130 000 lignes de code assembleur.

OpenClawRadar
L'analyse des prix d'inférence révèle un écart de 4,4x pour un même modèle selon les fournisseurs.
News

L'analyse des prix d'inférence révèle un écart de 4,4x pour un même modèle selon les fournisseurs.

L'analyse des prix d'inférence pour Llama 3.1 70B Instruct révèle un écart de coût de 4,4x entre les fournisseurs, avec DeepInfra à 0,20 $/0,27 $ par million de tokens et Together à 0,88 $/0,88 $. Pour les modèles de raisonnement, l'écart atteint environ 30x entre DeepSeek R1 et OpenAI o1.

OpenClawRadar
Claude Code 2.1.136 : Sécurité des actions, règles de refus strictes et moniteur de sécurité
News

Claude Code 2.1.136 : Sécurité des actions, règles de refus strictes et moniteur de sécurité

Claude Code CC 2.1.136 ajoute des exigences de sécurité d'action et de rapport véridique, introduit hard_deny comme quatrième catégorie de règle personnalisée, et divise le blocage de sécurité en blocs durs inconditionnels et blocs mous autorisables par l'utilisateur.

OpenClawRadar