Qwen3.5-397B MoE、M1 Ultraでページ化エキスパートローディングにより14GB RAMで動作

✍️ OpenClawRadar📅 公開日: May 7, 2026🔗 Source

Qwen3.5-397B MoE、M1 Ultraでページ化エキスパートローディングにより14GB RAMで動作

Ad

Redditのu/ur_dad_mattによる投稿（Claude経由）では、カスタムのpaged MoEエンジンがQwen3.5-397B-A17B（ディスク上209GB、512エキスパート、top-10ルーティング）をM1 Ultra 64GB Mac Studioで、わずか14GBのピークRAMと1.59 tok/sの推論速度で動作させることを実証している。このモデルは単純に読み込むには大きすぎるため、エンジンはK=20のエキスパートのみをRAMに常駐させ、残りはルーターの要求に応じてSSDからレイジーページングし、キャッシュプレッシャー下でエビクションする。計算はFloat16（MPS上のternaryより高速）、Apple Siliconネイティブ、MLXベースで行われる。

M1 Ultra 64GBでの5プロンプトスイープによるベンチマーク結果：

速度：1.59 tok/s（5つの一貫した生成の平均、K=20）
キャッシュRSSピーク（生成中）：7.91 GB
総RSSピーク：14.04 GB
一貫した出力：5/5

最適なエンジン設定：K_override=20、cache_gb=8.0、OUTLIER_MMAP_EXPERTS=0、lazy_load=True。最初はすべてのエキスパートをディスクに置こうとしたが、キャッシュサイズを調整するまでコマンドバッファ割り当てエラーが発生した。

著者は、生のスコアベンチマークは64GBハードウェア上のローカルLLMにとっては的外れであり、重要な指標は1GBあたりのMMLUだと主張する。1.59 tok/sではモデルは「思考ペース」で動作し、チャットペースではなく、モデル対メモリ比の上限を示している。

Ad

同じハードウェア上の小型量子化モデル（MLX-4ビット）の速度：

4B Nano：71.7 tok/s
9B Lite：53.4 tok/s
26B-A4B Quick：14.6 tok/s
27B Core：40.7 tok/s（MMLU 0.851 n=14042 σ=0.003、HumanEval 0.866 n=164 σ=0.027）
35B-A3B Vision：64.1 tok/s
397B Plus：1.59 tok/s

ランタイムはmacOS向けにTauri + Rust + MLXで構築されている。無料ティア（NanoとLite）はoutlier.hostで永久に利用可能。動画デモはRedditの投稿に含まれている。

📖 全文はこちら： r/LocalLLaMA

Ad

👀 See Also

DeepSeek-V4-Flash W4A16+FP8とMTP自己推測：2x RTX PRO 6000 Max-Qで毎秒85トークン

DeepSeek-V4-Flash W4A16+FP8とMTP自己推測：2x RTX PRO 6000 Max-Qで毎秒85トークン

DeepSeek-V4-FlashをW4A16+FP8に量子化し、MTPヘッドを後付けしたパッチ済みvLLMを使用して、2× RTX PRO 6000 Max-Q上で524kコンテキストにおいて85.52 tok/sを達成（ベースラインの52.85 tok/sから向上）。

May 10, 2026, 08:15 PM UTC

OpenClawのスムーズなエージェント間通信の設定

OpenClawのスムーズなエージェント間通信の設定

Redditユーザーが、エージェント間通信のタイムアウトを軽減するOpenClawの具体的な設定を共有しています。これには、ツールの可視性設定、メモリの指示、ANNOUNCE_SKIP制限の回避策が含まれています。

Apr 21, 2026, 10:28 AM UTC

Claudeコードエージェントの構造化：CLAUDE.mdと.claude/ディレクトリパターン

Claudeコードエージェントの構造化：CLAUDE.mdと.claude/ディレクトリパターン

開発者がClaude Codeを使用して複数のAIエージェントを実行するアプローチを共有しています。各エージェントには独自のディレクトリがあり、CLAUDE.mdファイルと、ルールやスキルを含む.claude/ディレクトリが配置されています。重要な洞察は、常時保持するコンテキストとオンデマンドのワークフローを分離することで、トークン使用量と応答品質を最適化することです。

Feb 28, 2026, 03:45 PM UTC

OpenClawメモリ管理：完全ガイド

OpenClawメモリ管理：完全ガイド

なし

Feb 7, 2026, 03:58 PM UTC

r/clawdbot community