M4 Mac Mini(24GB RAM)でのGLM-4.7-Flashの最適化

✍️ OpenClawRadar📅 公開日: February 24, 2026🔗 Source
M4 Mac Mini(24GB RAM)でのGLM-4.7-Flashの最適化
Ad

M4ハードウェアでのGLM-4.7-Flashの実用的な設定

24GB RAMを搭載したM4 Mac MiniでOpenClawとOllamaをテストしている開発者が、GLM-4.7-Flashモデルを実行するための具体的な最適化の詳細を共有しました。この情報源は、ハードウェアの制約内で機能する具体的なメモリ割り当ての現実と設定パラメータを提供しています。

メモリの現実とモデル選択

テストにより、M4 Miniでの実効的なGPUメモリ予算は、フルの24GBではなく、約17.8GBのMetal(GPU-wired)であることが明らかになりました。残りはmacOS、アプリケーション、およびCPU計算によって消費されます。この制限はモデル選択とコンテキストサイズに影響を与えます。

  • Q4_K_XL量子化(17.5GB GGUF)は32kコンテキストを処理できません:モデル(14.4GB)+ KV(2.8GB)+ 計算(1.4GB)= 18.6GB → メモリ不足
  • Q3_K_XL量子化(13.8GB GGUF)は32kコンテキストで動作します:モデル(12.7GB)+ KV(3.2GB)+ 計算(1.4GB)= 16.1GB、1.7GBの余裕あり
  • メモリ不足が発生する前のコンテキスト上限は約34kです

設定の詳細

成功したセットアップでは以下を使用しています:

  • モデル:Hugging Faceのunsloth/GLM-4.7-Flash-GGUF
  • 量子化:Q3_K_XL
  • コンテキストサイズ:MLA(Multi-Head Latent Attention)を用いた32k
  • KVキャッシュ実装:GGUFメタデータ(key_length_mla, kv_lora_rank)によってトリガーされるllama.cppのv-less KVキャッシュ(PR #19067, Jan 2026)
  • ビルド要件:llama.cpp b7860+

MLAの実装により、KVメモリ使用量が大幅に削減されています - 32kコンテキストのKVキャッシュは13GBではなく、わずか3.2GBです。

Ad

フレームワーク固有の考慮事項

OpenClawのようなエージェントフレームワークには、パフォーマンスに影響を与える内部コンテキスト閾値があります:

  • OpenClawは32kコンテキスト未満で積極的なコンパクションをトリガーします
  • コンテキストを20kから32kに増やすことで、起動時間が5分から2分17秒に短縮されました
  • num_ctxをフレームワークの閾値に合わせることで、コンパクションパスが2から1に減少しました
  • num_ctxはOllamaのModelfileに組み込む必要があります - OpenClawやその他のオーケストレーターは、OllamaのOpenAI互換APIを使用する際、リクエストレベルでこれを無視します

パフォーマンステストデータ

開発者は、さまざまなタスクに対する具体的なタイミングデータを提供しました:

タスク                     時間   入力トークン  コンパクション  結果
パーソナリティ紹介        119秒  ~13,900      2            ✅
プロファイル想起           60秒   13,247       2            ✅ 但し注意点あり
タスク作成                61秒   13,375       2            ✅
メモリ書き込み            165秒  14,448       2            ✅
メモリ想起                89秒   14,085       2            ✅
ウェブ検索 + 合成        273秒  18,668       2            ✅

MLXに関する考慮事項

開発者は、MLXとGGUFは異なるフォーマットであること、Unsloth/bartowskiのGGUFファイルはmlx-lmでは実行できないことを指摘しています。現在、mlx-communityリポジトリには3ビットのFlashモデルは存在せず、4ビットモデルのみが利用可能です。

📖 完全な情報源を読む: r/openclaw

Ad

👀 See Also

多段階AIエージェントにおける状態ドリフトを軽減する実践的手法
Guides

多段階AIエージェントにおける状態ドリフトを軽減する実践的手法

開発者がマルチエージェントワークフローにおける状態ドリフトを修正する具体的な方法を共有します。これには、スナップショットベースの読み取り、追加のみの書き込み、状態とコンテキストの分離が含まれます。これらのアプローチにより、実行の再現性が向上し、デバッグが追跡可能になりました。

OpenClawRadar
TodoistコネクタがClaudeから削除されました、カスタム設定が必要です。
Guides

TodoistコネクタがClaudeから削除されました、カスタム設定が必要です。

公式のTodoistコネクタはClaudeで利用できなくなりました。ユーザーはMCP URL https://ai.todoist.net/mcp を使用してTodoistをカスタムコネクタとして追加できますが、これにはClaude ProまたはMaxのサブスクリプションが必要です。

OpenClawRadar
ボットのOAuthトークン自動更新をClaude Codeで実現
Guides

ボットのOAuthトークン自動更新をClaude Codeで実現

Redditユーザーが、OAuthトークンの有効期限切れを防ぐ方法を共有しました。Claude Codeを設定して8時間ごとにトークンを自動更新することで、ボットを手動介入なしで継続的に稼働させることができます。

OpenClawRadar
Blackwell GB10でCUDA 13.0を使用してvLLMを実行する際の、aarch64固有の4つの障害モード
Guides

Blackwell GB10でCUDA 13.0を使用してvLLMを実行する際の、aarch64固有の4つの障害モード

開発者が、CUDA 13.0を搭載したaarch64アーキテクチャのBlackwell GB10システム上でvLLM v0.7.1とDeepSeek-R1-32Bをセットアップする際に、ABIの不一致や依存関係の欠落など、4つの特定の障害モードに遭遇しました。

OpenClawRadar