Qwen3.5-397B MoE、M1 Ultraでページ化エキスパートローディングにより14GB RAMで動作

Redditのu/ur_dad_mattによる投稿(Claude経由)では、カスタムのpaged MoEエンジンがQwen3.5-397B-A17B(ディスク上209GB、512エキスパート、top-10ルーティング)をM1 Ultra 64GB Mac Studioで、わずか14GBのピークRAMと1.59 tok/sの推論速度で動作させることを実証している。このモデルは単純に読み込むには大きすぎるため、エンジンはK=20のエキスパートのみをRAMに常駐させ、残りはルーターの要求に応じてSSDからレイジーページングし、キャッシュプレッシャー下でエビクションする。計算はFloat16(MPS上のternaryより高速)、Apple Siliconネイティブ、MLXベースで行われる。
M1 Ultra 64GBでの5プロンプトスイープによるベンチマーク結果:
- 速度:1.59 tok/s(5つの一貫した生成の平均、K=20)
- キャッシュRSSピーク(生成中):7.91 GB
- 総RSSピーク:14.04 GB
- 一貫した出力:5/5
最適なエンジン設定:K_override=20、cache_gb=8.0、OUTLIER_MMAP_EXPERTS=0、lazy_load=True。最初はすべてのエキスパートをディスクに置こうとしたが、キャッシュサイズを調整するまでコマンドバッファ割り当てエラーが発生した。
著者は、生のスコアベンチマークは64GBハードウェア上のローカルLLMにとっては的外れであり、重要な指標は1GBあたりのMMLUだと主張する。1.59 tok/sではモデルは「思考ペース」で動作し、チャットペースではなく、モデル対メモリ比の上限を示している。
同じハードウェア上の小型量子化モデル(MLX-4ビット)の速度:
- 4B Nano:71.7 tok/s
- 9B Lite:53.4 tok/s
- 26B-A4B Quick:14.6 tok/s
- 27B Core:40.7 tok/s(MMLU 0.851 n=14042 σ=0.003、HumanEval 0.866 n=164 σ=0.027)
- 35B-A3B Vision:64.1 tok/s
- 397B Plus:1.59 tok/s
ランタイムはmacOS向けにTauri + Rust + MLXで構築されている。無料ティア(NanoとLite)はoutlier.hostで永久に利用可能。動画デモはRedditの投稿に含まれている。
📖 全文はこちら: r/LocalLLaMA
👀 See Also

ローカルLLMとクラウドLLMの一貫したベンチマーク手法
開発者が、llama.cpp、vLLM、Ollamaなどのローカルモデルと、GPT-5.4、Claude Sonnet 4.6、Gemini 3.1 ProなどのクラウドAPIを、ZenMuxのような統一エンドポイントを通じて比較するために、順次リクエストとルールベースのスコアリングを使用した測定セットアップを共有しています。

経験から得た実用的なマルチエージェントシステムアーキテクチャのアドバイス
開発者が、7つのエージェントを毎日稼働させるシステムの経験に基づいて、マルチエージェントAIシステム構築のための5つの具体的なパターンを共有しています:1つのエージェントから始める、オーケストレータパターンを使用する、JSONファイルで共有メモリを実装する、タスクごとにモデルをルーティングする、確認ループを追加する。

一汁一菜:应对AI疲劳的日本料理原则
Takuyaは、日本の料理原則「一汁一菜」をAI疲れ対策に応用。ご飯、汁物、一皿の食事のように、テクノロジースタックを主要ツール1つと補助ツール1つに絞る。

複数の実プロジェクトを生き抜いたClaudeのコード構造
開発者が、複数のスキル、MCPサーバー、エージェントを備えたClaude Codeのセットアップを共有。2〜3件の実際のプロジェクトで安定して機能した。主な発見は、CLAUDE MDの使用による一貫性の確保、意図によるスキルの分割、フックの実装、コンテキスト使用率を60%以下に抑えること。