M4 Mac Mini 24GB RAMでGLM-4.7-Flash最適化：Q3_K

M4ハードウェアでのGLM-4.7-Flashの実用的な設定

24GB RAMを搭載したM4 Mac MiniでOpenClawとOllamaをテストしている開発者が、GLM-4.7-Flashモデルを実行するための具体的な最適化の詳細を共有しました。この情報源は、ハードウェアの制約内で機能する具体的なメモリ割り当ての現実と設定パラメータを提供しています。

メモリの現実とモデル選択

テストにより、M4 Miniでの実効的なGPUメモリ予算は、フルの24GBではなく、約17.8GBのMetal（GPU-wired）であることが明らかになりました。残りはmacOS、アプリケーション、およびCPU計算によって消費されます。この制限はモデル選択とコンテキストサイズに影響を与えます。

Q4_K_XL量子化（17.5GB GGUF）は32kコンテキストを処理できません：モデル（14.4GB）+ KV（2.8GB）+ 計算（1.4GB）= 18.6GB → メモリ不足
Q3_K_XL量子化（13.8GB GGUF）は32kコンテキストで動作します：モデル（12.7GB）+ KV（3.2GB）+ 計算（1.4GB）= 16.1GB、1.7GBの余裕あり
メモリ不足が発生する前のコンテキスト上限は約34kです

設定の詳細

成功したセットアップでは以下を使用しています：

モデル：Hugging Faceのunsloth/GLM-4.7-Flash-GGUF
量子化：Q3_K_XL
コンテキストサイズ：MLA（Multi-Head Latent Attention）を用いた32k
KVキャッシュ実装：GGUFメタデータ（key_length_mla, kv_lora_rank）によってトリガーされるllama.cppのv-less KVキャッシュ（PR #19067, Jan 2026）
ビルド要件：llama.cpp b7860+

MLAの実装により、KVメモリ使用量が大幅に削減されています - 32kコンテキストのKVキャッシュは13GBではなく、わずか3.2GBです。

フレームワーク固有の考慮事項

OpenClawのようなエージェントフレームワークには、パフォーマンスに影響を与える内部コンテキスト閾値があります：

OpenClawは32kコンテキスト未満で積極的なコンパクションをトリガーします
コンテキストを20kから32kに増やすことで、起動時間が5分から2分17秒に短縮されました
num_ctxをフレームワークの閾値に合わせることで、コンパクションパスが2から1に減少しました
num_ctxはOllamaのModelfileに組み込む必要があります - OpenClawやその他のオーケストレーターは、OllamaのOpenAI互換APIを使用する際、リクエストレベルでこれを無視します

パフォーマンステストデータ

開発者は、さまざまなタスクに対する具体的なタイミングデータを提供しました：

タスク                     時間   入力トークン  コンパクション  結果
パーソナリティ紹介        119秒  ~13,900      2            ✅
プロファイル想起           60秒   13,247       2            ✅ 但し注意点あり
タスク作成                61秒   13,375       2            ✅
メモリ書き込み            165秒  14,448       2            ✅
メモリ想起                89秒   14,085       2            ✅
ウェブ検索 + 合成        273秒  18,668       2            ✅