APEX MoE Quantsアップデート：25以上のモデルとI-Nanoティア

APEX 量子化戦略（MoE 対応混合精度）は、Qwen 3.5 35B-A3B 向けの初回リリース以降、大幅に拡大しました。Hugging Face コレクションには、主要ファミリーの 30 以上の MoE モデルが含まれ、新しい超圧縮 I-Nano ティアが利用可能になりました。

ユーザーフィードバックからの主な結果

長いコンテキストの保持: APEX I-Balanced および I-Compact バージョンは、30～50B クラスの MoE で 32k トークンを超えても一貫性を維持。均一な Q4_K では劣化が見られます。共有エキスパートとエッジ層を高精度に保つことで、長距離トークンルーティングが維持されるという仮説です。
コーディング性能: Qwen 3.6 35B-A3B のユーザーは、I-Compact と I-Mini が実際のコードタスクで F16 に近い性能を維持し、サイズクラスの期待を上回ると報告しています。

ファミリー別にグループ化。ほとんどは 30～70B クラスの MoE で、I-Mini/I-Compact でコンシューマー GPU 1 枚に収まります。

Qwen: Qwen 3.5 122B-A10B、397B-A17B、Claude 蒸留、Fernflower、TQ; Qwen 3.6 35B-A3B（heretic、Claude 4.6/4.7 蒸留）; Qwen3-Coder 30B、Next。
フロンティアサイズ（レンタル Blackwell）: MiniMax-M2.5/M2.7（228B/24B アクティブ）、Mistral-Small 4 119B-2603、NVIDIA Nemotron-3-Super 120B-A12B、GLM-4.7 Flash、Step-3.5 Flash、Nemotron-3-Nano 30B-A3B、Nemotron-3-Nano-Omni（マルチモーダル）、Holo3 35B-A3B、Huihui3.5 67B-A3B。
ハイブリッド Mamba/SSM MoE: Nemotron-3-Nano バリアント、Holo3、LFM2 24B-A2B。
Gemma 4: gemma-4 26B-A4B-it（更新された Google チャットテンプレートで再量子化）、+Claude Opus 蒸留、+heretic、Gemopus-4 Preview。
コミュニティマージ: Carnice MoE 35B-A3B、Carnice-Qwen3.6、Qwopus MoE 35B-A3B。