APEX MoE Quants Update: 25+ neue Modelle und I-Nano-Stufe veröffentlicht

Die APEX-Quantisierungsstrategie (MoE-bewusste Mixed-Precision) wurde seit ihrer ersten Veröffentlichung für Qwen 3.5 35B-A3B erheblich erweitert. Die Hugging-Face-Kollektion umfasst nun über 30 MoE-Modelle aus wichtigen Familien, und eine neue ultra-komprimierte I-Nano-Stufe ist jetzt verfügbar.
Wichtige Ergebnisse aus Benutzerfeedback
- Langer Kontext hält: APEX I-Balanced- und I-Compact-Versionen bleiben bei über 32k Tokens auf 30-50B-Klasse-MoEs kohärent, während gleichmäßiges Q4_K an Qualität verliert. Die Hypothese ist, dass die hohe Präzision der Shared Experts und der Edge-Layer das langfristige Token-Routing bewahrt.
- Code-Leistung: Nutzer von Qwen 3.6 35B-A3B berichten, dass I-Compact und I-Mini bei realen Code-Aufgaben nahe an F16 bleiben, besser als die Größenklasse erwarten lässt.
Neue hinzugefügte Modelle
Gruppiert nach Familie, die meisten sind 30-70B-Klasse-MoEs, die auf eine einzelne Consumer-GPU bei I-Mini/I-Compact passen:
- Qwen: Qwen 3.5 122B-A10B, 397B-A17B, Claude-distilliert, Fernflower, TQ; Qwen 3.6 35B-A3B (heretic, Claude 4.6/4.7 Destillate); Qwen3-Coder 30B, Next.
- Frontier-Größe (gemietete Blackwell): MiniMax-M2.5/M2.7 (228B/24B aktiv), Mistral-Small 4 119B-2603, NVIDIA Nemotron-3-Super 120B-A12B, GLM-4.7 Flash, Step-3.5 Flash, Nemotron-3-Nano 30B-A3B, Nemotron-3-Nano-Omni (multimodal), Holo3 35B-A3B, Huihui3.5 67B-A3B.
- Hybride Mamba/SSM MoEs: Nemotron-3-Nano-Varianten, Holo3, LFM2 24B-A2B.
- Gemma 4: gemma-4 26B-A4B-it (neu quantisiert mit aktualisierter Google-Chat-Vorlage), +Claude Opus-Destillat, +heretic, Gemopus-4 Preview.
- Community-Merges: Carnice MoE 35B-A3B, Carnice-Qwen3.6, Qwopus MoE 35B-A3B.
Neue Stufe: I-Nano (IQ2_XXS)
Drückt die gerouteten Experten der mittleren Layer auf 2,06 bpw, die nahe am Edge auf IQ2_S, die Edges auf Q3_K, die Shared Experts auf Q5_K. Etwa 20% kleiner als I-Mini, nur bei MoE aufgrund der spärlichen Expertenaktivierung nutzbar. Erfordert imatrix.
Beispielgrößen:
- Qwen 3.5 35B-A3B: I-Mini 13 GB → I-Nano 11 GB
- Nemotron Omni 30B: I-Mini 18 GB → I-Nano 17 GB (weniger Ersparnis aufgrund dichterer Shared Experts)
Links
📖 Lesen Sie die vollständige Quelle: r/LocalLLaMA
👀 Siehe auch

Terry Tao über AI-Beweisprüfer: Lean, Zusammenarbeit und formale Mathematik
Terry Tao prognostiziert, dass Mathematiker zu Hunderten zusammenarbeiten und ihre Beweise von Computern wie Lean überprüfen lassen, nicht von Menschen. Dieser Auszug aus Quanta Magazine erkundet diese Vision.

OpenClaw 2026.4.29 defekt – Downgrade auf 2026.2.6
OpenClaw Version 2026.4.29 ist defekt: zufällige Fehler, langsame CLI, doppelte Antworten. Ein Downgrade auf 2026.2.6 behebt das Problem.

Automatisierung von sozialen Medien mit OpenClaw: Möglichkeiten und Diskussionen
Eine Diskussion auf Reddit untersucht das Potenzial der Automatisierung von Social-Media-Aufgaben mit OpenClaw.

Ein 50-Entwickler Low-Code-Shop in 12 Monaten verdampft: Die Abhängigkeitsfalle von KI-Code-Agenten
Ein 50-köpfiger Low-Code-Shop verlor innerhalb von 12 Monaten alle Kunden, weil „Low-Code + KI“ reines Low-Code und Full-Stack schlägt. Gleichzeitig kämpft ein Solo-Entwickler, der auf Claude Max angewiesen ist, mit Session-Limits und steigenden Kosten. Beide veranschaulichen dasselbe Dilemma: Anpassen oder abhängig sein.