Qwen3.5-397B on M5 Max: 20.34 tok/s via SSD Streaming

ハードウェアとモデル構成

実験は、128GBの統合メモリと40コアGPUを搭載したMacBook Pro M5 Maxで実施されました。使用されたモデルは、Qwen3.5-397B-A17Bで、Q3-GGUFエキスパート（Unsloth IQ3_XXS/IQ4_XS混合精度）、Q8_0埋め込み、Q6_K LMヘッドを採用しています。モデルはディスク上で209GBを占有し、利用可能なRAMの4倍の大きさであるため、すべてをSSDからストリーミングする必要がありました。

パフォーマンス結果

デコード速度は20.34トークン/秒に達し、プリフィルは5.52トークン/秒でした。これは、M5 Maxの開始点である10.61トークン/秒と比較して2倍の改善、M3 MaxハードウェアでのDan Woodsの元のベースラインである4.36トークン/秒と比較して4.67倍の改善を表しています。

方法論

研究者は、Dan Woodsのflash-moeプロジェクトの自動研究ループ手法を使用し、Claude Code（Anthropic）で実行して36の実験を体系的に実行・評価しました。各実験は結果をログに記録してから次に進み、自動品質ゲートをパープレキシティ閾値で適用して退行を検出しました。人間とAIの協業では、研究者が研究を指揮し科学的決定を行い、Claude Codeが指示に従って実装とベンチマークを実施しました。

技術的基盤

この研究は、Dan Woodsの元のflash-moe論文とAnemllのフォークに基づいており、これはApple SiliconでSSDストリーミングを介してQwen3.5-397Bを実行する純粋なC/Metal推論エンジンです。Anemllフォークはこれらの結果に不可欠なQ3-GGUFエキスパートサポートを追加し、研究者はさらにMetalレベルの最適化を加えました。

効果的な最適化

16 IOスレッド + cache-io-split=4: 各エキスパート重みファイルを1つの連続チャンクとして読み取る代わりに、4つの並列ページ整列読み取りに分割し、異なるSSDチャネルに同時にアクセス。+1.5トークン/秒
時間的エキスパート予測: 27%のクロストークンルーティング相関を発見し、SSD読み取りとGPU計算をオーバーラップ。+4.3トークン/秒
Q3-GGUFエキスパート（Unsloth IQ3_XXS/IQ4_XS）: Q3をスイートスポットとするより小さなペイロード。4ビットよりも優れたパープレキシティ（5.58対5.62）を維持しながら23%小型化。+2.3トークン/秒
CMD2事前エンコード: レイヤーごとの30μsのサブミッションギャップを排除。+0.44トークン/秒
融合Q/K/V射影カーネル: 入力ベクトルを3回ではなく1回読み取る（Metal GPU最適化）。+0.76トークン/秒
CMD2事前エンコードをすべての完全注意レイヤーに拡張: +0.47トークン/秒

注：一部の最適化は相互に作用するため、ゲインは完全に加算的ではありません。

失敗したアプローチ

研究では78%の破棄率がありました。失敗したアプローチには以下が含まれます：1ビットQJL量子化（パープレキシティ5647、壊滅的）、84%重みスパース性の3値2ビット（モデル崩壊）、K=3エキスパートルーティング（品質崩壊）、クロスレイヤー予測（0%ヒット率）、NAXオフローディング（タイルパディングオーバーヘッドがゲインを相殺）、2ビットMLXエキスパート（単独では高速だが、時間的予測をQ3に適用するとパープレキシティが悪化し速度優位性なし）。

制限と将来の課題

この研究は単一のハードウェアプラットフォームに限定されているため、結果が一般化しない可能性があります。この規模でのQ3量子化は長文生成で顕著に劣化し、短いタスクでは許容可能な品質でも長い応答でアーティファクトを生成します。品質はパープレキシティのみで評価され、MMLUやGPQAなどの標準化されたベンチマークは使用されていません。これは速度研究プロジェクトであり、製品品質の主張ではありません。

驚くべき発見の一つ：AppleのNeural Engine（ANE）は推論中に完全にアイドル状態で、38 TOPSの計算能力を提供しているにもかかわらず0Wを消費しました。問題は、MoE推論が動的にどのエキスパートを活性化するかを決定する必要があるのに対し、ANEは静的に事前コンパイルされたグラフでのみ動作することです。バッチプリフィルの機会があるかもしれません。

📖 Read the full source: r/LocalLLaMA