2x3090でCPUオフロードを使用したMiniMax M2.7 Q8_0 128Kの実行 – 実世界のベンチマークと設定

最近のr/LocalLLaMAの投稿で、あるユーザーがMiniMax M2.7モデル(Q8_0量子化)を2x3090構成、256GB DDR4、中古の10900X CPUで128Kコンテキストまで動作させた経験を共有しています。主な課題は、量子化されていないKVキャッシュを持つ大規模MoEモデルを、そのクラスとしては比較的低スペックなハードウェアで実行することでした。
パフォーマンス数値
ユーザーは次のように報告しています:
- プロンプト処理:毎秒約50トークン
- トークン生成:毎秒約10トークン
- 「非常に遅いが、コーディングエージェントのワークフローには使える」と説明
設定
彼らはik-llama-cuda(llama.cppのフォーク)を以下のフラグで使用しています(NixOS設定より):
${ik-llama-cuda}/bin/llama-server \
-m ${modelPath} \
--host 0.0.0.0 \
--port ${toString cfg.port} \
-c ${toString cfg.contextLength} \
-ngl 999 \
--cpu-moe \
-sm graph \
-fa on \
-t 16 \
-tb 16 \
-b 4096 \
-ub 4096 \
-np 1 \
-muge \
-ger \
--jinja \
--metrics \
--temp 1.0 \
--top-p 0.95 \
--top-k 40 \
--min-p 0.01注目すべきフラグ:
--cpu-moe– MoEエキスパート計算をCPUにオフロード-sm graph– グラフベースのスケジューリングを有効化-fa on– フラッシュアテンション-t 16/-tb 16– 計算とバッチそれぞれに16スレッド-b 4096/-ub 4096– バッチサイズとubatchサイズ-muge– メモリ使用量に基づくエキスパート読み込み(おそらく)-ger– GPUエキスパートルーティング
背景と動機
ユーザーは、低量子化で見られた「奇妙な動作」を軽減するためにQ8_0を選択したと報告しています。また、M2.7向けの投機的復号化用ドラフトモデルがリリースされておらず、これがあれば速度が向上したかもしれないと述べています。彼らは、生成に「文字通り一日中」かからない限り、速度よりも正確性を重視しています。
開発者への示唆
これは、マルチGPU構成でシステムRAMを活用して大規模MoEモデルを実行する人々にとって実用的なデータポイントです。--cpu-moeアプローチにより、VRAMの制限をはるかに超えてコンテキストを拡張できますが、速度は低下します。レイテンシがそれほど重要でないコーディングエージェントのワークフローでは、このトレードオフは許容できるかもしれません。
📖 原文を読む: r/LocalLLaMA
👀 See Also

節約最大化:予算内でOpenClawボットを運用する方法
OpenClaw/ClawdBot/MoltBotを無料または低予算で実行する方法を探り、r/openclawで共有されているコミュニティのヒントと工夫に富んだ戦略を活用しましょう。

Claude Codeの/insightsコマンドは、デバッグや自律的なタスクのヒントを提供します。
Redditユーザーが、Claude Codeの/insightsコマンドの実用的なテクニックを2つ紹介しています。バグのデバッグ時には少なくとも3つの潜在的な根本原因を特定するよう依頼すること、そして自律実行には包括的なタスク仕様と--dangerously-skip-permissionsフラグを使用することです。
Slashエージェントのスタートアップトークンを60%削減:ボットのワークスペースを整理しよう
ある開発者が、LLMにワークスペースファイルを監査・再構築させることで、起動トークンを80kから31kに削減しました。ブロートを除去し、情報を重複排除し、ツールドキュメントを個別のファイルに整理しました。

OpenClaw インストールのヒント:オンボーディングをスキップして診断コマンドを使用する
Redditユーザーが実用的なOpenClawインストールのアドバイスを共有:一般的な問題を避けるため、特にVPSセットアップではオンボーディングプロセスをスキップし、openclaw doctorとopenclaw statusコマンドを使用して設定の問題を診断する。