オートリサーチにより、SSDストリーミングを介してM5 Max上でQwen3.5-397Bが20.34 tok/sを達成

✍️ OpenClawRadar📅 公開日: March 30, 2026🔗 Source
オートリサーチにより、SSDストリーミングを介してM5 Max上でQwen3.5-397Bが20.34 tok/sを達成
Ad

ハードウェアとモデル構成

実験は、128GBの統合メモリと40コアGPUを搭載したMacBook Pro M5 Maxで実施されました。使用されたモデルは、Qwen3.5-397B-A17Bで、Q3-GGUFエキスパート(Unsloth IQ3_XXS/IQ4_XS混合精度)、Q8_0埋め込み、Q6_K LMヘッドを採用しています。モデルはディスク上で209GBを占有し、利用可能なRAMの4倍の大きさであるため、すべてをSSDからストリーミングする必要がありました。

パフォーマンス結果

デコード速度は20.34トークン/秒に達し、プリフィルは5.52トークン/秒でした。これは、M5 Maxの開始点である10.61トークン/秒と比較して2倍の改善、M3 MaxハードウェアでのDan Woodsの元のベースラインである4.36トークン/秒と比較して4.67倍の改善を表しています。

方法論

研究者は、Dan Woodsのflash-moeプロジェクトの自動研究ループ手法を使用し、Claude Code(Anthropic)で実行して36の実験を体系的に実行・評価しました。各実験は結果をログに記録してから次に進み、自動品質ゲートをパープレキシティ閾値で適用して退行を検出しました。人間とAIの協業では、研究者が研究を指揮し科学的決定を行い、Claude Codeが指示に従って実装とベンチマークを実施しました。

技術的基盤

この研究は、Dan Woodsの元のflash-moe論文とAnemllのフォークに基づいており、これはApple SiliconでSSDストリーミングを介してQwen3.5-397Bを実行する純粋なC/Metal推論エンジンです。Anemllフォークはこれらの結果に不可欠なQ3-GGUFエキスパートサポートを追加し、研究者はさらにMetalレベルの最適化を加えました。

効果的な最適化

  • 16 IOスレッド + cache-io-split=4: 各エキスパート重みファイルを1つの連続チャンクとして読み取る代わりに、4つの並列ページ整列読み取りに分割し、異なるSSDチャネルに同時にアクセス。+1.5トークン/秒
  • 時間的エキスパート予測: 27%のクロストークンルーティング相関を発見し、SSD読み取りとGPU計算をオーバーラップ。+4.3トークン/秒
  • Q3-GGUFエキスパート(Unsloth IQ3_XXS/IQ4_XS): Q3をスイートスポットとするより小さなペイロード。4ビットよりも優れたパープレキシティ(5.58対5.62)を維持しながら23%小型化。+2.3トークン/秒
  • CMD2事前エンコード: レイヤーごとの30μsのサブミッションギャップを排除。+0.44トークン/秒
  • 融合Q/K/V射影カーネル: 入力ベクトルを3回ではなく1回読み取る(Metal GPU最適化)。+0.76トークン/秒
  • CMD2事前エンコードをすべての完全注意レイヤーに拡張: +0.47トークン/秒

注:一部の最適化は相互に作用するため、ゲインは完全に加算的ではありません。

Ad

失敗したアプローチ

研究では78%の破棄率がありました。失敗したアプローチには以下が含まれます:1ビットQJL量子化(パープレキシティ5647、壊滅的)、84%重みスパース性の3値2ビット(モデル崩壊)、K=3エキスパートルーティング(品質崩壊)、クロスレイヤー予測(0%ヒット率)、NAXオフローディング(タイルパディングオーバーヘッドがゲインを相殺)、2ビットMLXエキスパート(単独では高速だが、時間的予測をQ3に適用するとパープレキシティが悪化し速度優位性なし)。

制限と将来の課題

この研究は単一のハードウェアプラットフォームに限定されているため、結果が一般化しない可能性があります。この規模でのQ3量子化は長文生成で顕著に劣化し、短いタスクでは許容可能な品質でも長い応答でアーティファクトを生成します。品質はパープレキシティのみで評価され、MMLUやGPQAなどの標準化されたベンチマークは使用されていません。これは速度研究プロジェクトであり、製品品質の主張ではありません。

驚くべき発見の一つ:AppleのNeural Engine(ANE)は推論中に完全にアイドル状態で、38 TOPSの計算能力を提供しているにもかかわらず0Wを消費しました。問題は、MoE推論が動的にどのエキスパートを活性化するかを決定する必要があるのに対し、ANEは静的に事前コンパイルされたグラフでのみ動作することです。バッチプリフィルの機会があるかもしれません。

📖 Read the full source: r/LocalLLaMA

Ad

👀 See Also

サルヴァムAIが、インドのトレーニングインフラを活用して30Bと105BのオープンソースLLMをリリースしました。
News

サルヴァムAIが、インドのトレーニングインフラを活用して30Bと105BのオープンソースLLMをリリースしました。

Sarvam AIは、インドAIミッションの下で提供されたコンピュートリソースを使用してインドでゼロからトレーニングされた2つの推論モデル、Sarvam 30BとSarvam 105Bをオープンソース化しました。両モデルはスパースエキスパートルーティングを備えたMixture-of-Expertsアーキテクチャを採用し、GPUからノートパソコンまでの幅広いハードウェアで効率的なデプロイメントを実現するように最適化されています。

OpenClawRadar
みんながAIを持っているのに会社が何も学べない:企業AI導入の厄介な中間地点
News

みんながAIを持っているのに会社が何も学べない:企業AI導入の厄介な中間地点

Ethan Mollickのフレームワークは、個人のAI生産性向上が自動的に組織の学習にはならないことを示している。この記事では、AIの利用が不均一で、隠れており、共有知識と切り離されている「厄介な中間」に企業が停滞している理由を探る。

OpenClawRadar
OpenClaw: 開発者が知っておくべき4つの重要課題
News

OpenClaw: 開発者が知っておくべき4つの重要課題

画像パススルーバグから、デッドチャネルアダプター、ロックファイルの可視性、並列調整の欠如まで——OpenClawリポジトリ(366kスター)の本番環境に影響を与える4つの問題。

OpenClawRadar
GPUの電力消費は、小型LLMにおいてトークン予測理論から逸脱する
News

GPUの電力消費は、小型LLMにおいてトークン予測理論から逸脱する

4つの80億パラメータモデルを用いた『確率的オウム』理論の実験では、GPUの電力消費量がトークン数に対して非線形にスケールすることが多く、乖離率は7.7%から36.7%の範囲であることが判明しました。この研究では、哲学的なクエリの後に持続的な残留熱が生じることや、順序依存効果も明らかになりました。

OpenClawRadar