APEX MoE Quantsアップデート:新たに25以上のモデルとI-Nanoティアをリリース

✍️ OpenClawRadar📅 公開日: May 4, 2026🔗 Source
APEX MoE Quantsアップデート:新たに25以上のモデルとI-Nanoティアをリリース
Ad

APEX 量子化戦略(MoE 対応混合精度)は、Qwen 3.5 35B-A3B 向けの初回リリース以降、大幅に拡大しました。Hugging Face コレクションには、主要ファミリーの 30 以上の MoE モデルが含まれ、新しい超圧縮 I-Nano ティアが利用可能になりました。

ユーザーフィードバックからの主な結果

  • 長いコンテキストの保持: APEX I-Balanced および I-Compact バージョンは、30~50B クラスの MoE で 32k トークンを超えても一貫性を維持。均一な Q4_K では劣化が見られます。共有エキスパートとエッジ層を高精度に保つことで、長距離トークンルーティングが維持されるという仮説です。
  • コーディング性能: Qwen 3.6 35B-A3B のユーザーは、I-Compact と I-Mini が実際のコードタスクで F16 に近い性能を維持し、サイズクラスの期待を上回ると報告しています。

追加された新しいモデル

ファミリー別にグループ化。ほとんどは 30~70B クラスの MoE で、I-Mini/I-Compact でコンシューマー GPU 1 枚に収まります。

  • Qwen: Qwen 3.5 122B-A10B、397B-A17B、Claude 蒸留、Fernflower、TQ; Qwen 3.6 35B-A3B(heretic、Claude 4.6/4.7 蒸留); Qwen3-Coder 30B、Next。
  • フロンティアサイズ(レンタル Blackwell): MiniMax-M2.5/M2.7(228B/24B アクティブ)、Mistral-Small 4 119B-2603、NVIDIA Nemotron-3-Super 120B-A12B、GLM-4.7 Flash、Step-3.5 Flash、Nemotron-3-Nano 30B-A3B、Nemotron-3-Nano-Omni(マルチモーダル)、Holo3 35B-A3B、Huihui3.5 67B-A3B。
  • ハイブリッド Mamba/SSM MoE: Nemotron-3-Nano バリアント、Holo3、LFM2 24B-A2B。
  • Gemma 4: gemma-4 26B-A4B-it(更新された Google チャットテンプレートで再量子化)、+Claude Opus 蒸留、+heretic、Gemopus-4 Preview。
  • コミュニティマージ: Carnice MoE 35B-A3B、Carnice-Qwen3.6、Qwopus MoE 35B-A3B。
Ad

新しいティア: I-Nano (IQ2_XXS)

中間層のルーティングエキスパートを 2.06 bpw まで圧縮し、エッジ近傍は IQ2_S、エッジは Q3_K、共有エキスパートは Q5_K に。I-Mini より約 20% 小さく、スパースなエキスパート活性化により MoE でのみ有効。imatrix が必要です。

サイズ例:

  • Qwen 3.5 35B-A3B: I-Mini 13 GB → I-Nano 11 GB
  • Nemotron Omni 30B: I-Mini 18 GB → I-Nano 17 GB(共有エキスパートが密なため削減量は少ない)

リンク

📖 ソース全文: r/LocalLLaMA

Ad

👀 See Also

Granite 4.1: IBMの8B高密度モデルがベンチマークで32B MoEに匹敵
News

Granite 4.1: IBMの8B高密度モデルがベンチマークで32B MoEに匹敵

IBMのGranite 4.1 8B デンスモデルは、ArenaHard、BFCL V3、GSM8Kなどにおいて、改良されたトレーニングデータ品質のおかげで、以前の32B MoEモデルに匹敵するか、それを上回る性能を達成しました。

OpenClawRadar
Polsiaプラットフォーム、ライブファウンダー起業で繰り返されるSaaSパターンを提示
News

Polsiaプラットフォーム、ライブファウンダー起業で繰り返されるSaaSパターンを提示

Polsiaは、ユーザーがビジネスを説明し、支払いを行うことで、プラットフォームが自律的に実行する自律型ビジネスプラットフォームです。行動科学者が72時間にわたる創業者のライブ起動を観察し、AI SDR自動化ソリューションや十分に活用されていない国際市場などの反復パターンを特定しました。

OpenClawRadar
MTP複数トークン予測:AMD Strix Halo&Radeon 9700 AI Proで2倍高速なトークン生成
News

MTP複数トークン予測:AMD Strix Halo&Radeon 9700 AI Proで2倍高速なトークン生成

MTPは、特にコーディングエージェントにおいて、LLMの推論を最大2倍高速化します。動画では、AMD Strix HaloとDual Radeon 9700を搭載した環境でのQwen 3.6におけるMTPの仕組みとパフォーマンスを紹介しています。

OpenClawRadar
OpenClawの使い勝手と経済的実現性に対する懸念が浮上
News

OpenClawの使い勝手と経済的実現性に対する懸念が浮上

OpenClawは、参入障壁の高さ、法外なコスト、セキュリティ問題、誤解を招くメモリ機能などで批判されています。MemU Botのような代替ソリューションが推奨されています。

OpenClawRadar