APEX MoE Quants: 25+ Neue Modelle & I-Nano Stufe

Die APEX-Quantisierungsstrategie (MoE-bewusste Mixed-Precision) wurde seit ihrer ersten Veröffentlichung für Qwen 3.5 35B-A3B erheblich erweitert. Die Hugging-Face-Kollektion umfasst nun über 30 MoE-Modelle aus wichtigen Familien, und eine neue ultra-komprimierte I-Nano-Stufe ist jetzt verfügbar.

Wichtige Ergebnisse aus Benutzerfeedback

Langer Kontext hält: APEX I-Balanced- und I-Compact-Versionen bleiben bei über 32k Tokens auf 30-50B-Klasse-MoEs kohärent, während gleichmäßiges Q4_K an Qualität verliert. Die Hypothese ist, dass die hohe Präzision der Shared Experts und der Edge-Layer das langfristige Token-Routing bewahrt.
Code-Leistung: Nutzer von Qwen 3.6 35B-A3B berichten, dass I-Compact und I-Mini bei realen Code-Aufgaben nahe an F16 bleiben, besser als die Größenklasse erwarten lässt.

Neue hinzugefügte Modelle

Gruppiert nach Familie, die meisten sind 30-70B-Klasse-MoEs, die auf eine einzelne Consumer-GPU bei I-Mini/I-Compact passen:

Qwen: Qwen 3.5 122B-A10B, 397B-A17B, Claude-distilliert, Fernflower, TQ; Qwen 3.6 35B-A3B (heretic, Claude 4.6/4.7 Destillate); Qwen3-Coder 30B, Next.
Frontier-Größe (gemietete Blackwell): MiniMax-M2.5/M2.7 (228B/24B aktiv), Mistral-Small 4 119B-2603, NVIDIA Nemotron-3-Super 120B-A12B, GLM-4.7 Flash, Step-3.5 Flash, Nemotron-3-Nano 30B-A3B, Nemotron-3-Nano-Omni (multimodal), Holo3 35B-A3B, Huihui3.5 67B-A3B.
Hybride Mamba/SSM MoEs: Nemotron-3-Nano-Varianten, Holo3, LFM2 24B-A2B.
Gemma 4: gemma-4 26B-A4B-it (neu quantisiert mit aktualisierter Google-Chat-Vorlage), +Claude Opus-Destillat, +heretic, Gemopus-4 Preview.
Community-Merges: Carnice MoE 35B-A3B, Carnice-Qwen3.6, Qwopus MoE 35B-A3B.

Neue Stufe: I-Nano (IQ2_XXS)

Drückt die gerouteten Experten der mittleren Layer auf 2,06 bpw, die nahe am Edge auf IQ2_S, die Edges auf Q3_K, die Shared Experts auf Q5_K. Etwa 20% kleiner als I-Mini, nur bei MoE aufgrund der spärlichen Expertenaktivierung nutzbar. Erfordert imatrix.

Beispielgrößen: