M4 Mac Mini(24GB RAM)でのGLM-4.7-Flashの最適化

M4ハードウェアでのGLM-4.7-Flashの実用的な設定
24GB RAMを搭載したM4 Mac MiniでOpenClawとOllamaをテストしている開発者が、GLM-4.7-Flashモデルを実行するための具体的な最適化の詳細を共有しました。この情報源は、ハードウェアの制約内で機能する具体的なメモリ割り当ての現実と設定パラメータを提供しています。
メモリの現実とモデル選択
テストにより、M4 Miniでの実効的なGPUメモリ予算は、フルの24GBではなく、約17.8GBのMetal(GPU-wired)であることが明らかになりました。残りはmacOS、アプリケーション、およびCPU計算によって消費されます。この制限はモデル選択とコンテキストサイズに影響を与えます。
- Q4_K_XL量子化(17.5GB GGUF)は32kコンテキストを処理できません:モデル(14.4GB)+ KV(2.8GB)+ 計算(1.4GB)= 18.6GB → メモリ不足
- Q3_K_XL量子化(13.8GB GGUF)は32kコンテキストで動作します:モデル(12.7GB)+ KV(3.2GB)+ 計算(1.4GB)= 16.1GB、1.7GBの余裕あり
- メモリ不足が発生する前のコンテキスト上限は約34kです
設定の詳細
成功したセットアップでは以下を使用しています:
- モデル:Hugging Faceのunsloth/GLM-4.7-Flash-GGUF
- 量子化:Q3_K_XL
- コンテキストサイズ:MLA(Multi-Head Latent Attention)を用いた32k
- KVキャッシュ実装:GGUFメタデータ(key_length_mla, kv_lora_rank)によってトリガーされるllama.cppのv-less KVキャッシュ(PR #19067, Jan 2026)
- ビルド要件:llama.cpp b7860+
MLAの実装により、KVメモリ使用量が大幅に削減されています - 32kコンテキストのKVキャッシュは13GBではなく、わずか3.2GBです。
フレームワーク固有の考慮事項
OpenClawのようなエージェントフレームワークには、パフォーマンスに影響を与える内部コンテキスト閾値があります:
- OpenClawは32kコンテキスト未満で積極的なコンパクションをトリガーします
- コンテキストを20kから32kに増やすことで、起動時間が5分から2分17秒に短縮されました
- num_ctxをフレームワークの閾値に合わせることで、コンパクションパスが2から1に減少しました
- num_ctxはOllamaのModelfileに組み込む必要があります - OpenClawやその他のオーケストレーターは、OllamaのOpenAI互換APIを使用する際、リクエストレベルでこれを無視します
パフォーマンステストデータ
開発者は、さまざまなタスクに対する具体的なタイミングデータを提供しました:
タスク 時間 入力トークン コンパクション 結果 パーソナリティ紹介 119秒 ~13,900 2 ✅ プロファイル想起 60秒 13,247 2 ✅ 但し注意点あり タスク作成 61秒 13,375 2 ✅ メモリ書き込み 165秒 14,448 2 ✅ メモリ想起 89秒 14,085 2 ✅ ウェブ検索 + 合成 273秒 18,668 2 ✅
MLXに関する考慮事項
開発者は、MLXとGGUFは異なるフォーマットであること、Unsloth/bartowskiのGGUFファイルはmlx-lmでは実行できないことを指摘しています。現在、mlx-communityリポジトリには3ビットのFlashモデルは存在せず、4ビットモデルのみが利用可能です。
📖 完全な情報源を読む: r/openclaw
👀 See Also

多段階AIエージェントにおける状態ドリフトを軽減する実践的手法
開発者がマルチエージェントワークフローにおける状態ドリフトを修正する具体的な方法を共有します。これには、スナップショットベースの読み取り、追加のみの書き込み、状態とコンテキストの分離が含まれます。これらのアプローチにより、実行の再現性が向上し、デバッグが追跡可能になりました。

TodoistコネクタがClaudeから削除されました、カスタム設定が必要です。
公式のTodoistコネクタはClaudeで利用できなくなりました。ユーザーはMCP URL https://ai.todoist.net/mcp を使用してTodoistをカスタムコネクタとして追加できますが、これにはClaude ProまたはMaxのサブスクリプションが必要です。

ボットのOAuthトークン自動更新をClaude Codeで実現
Redditユーザーが、OAuthトークンの有効期限切れを防ぐ方法を共有しました。Claude Codeを設定して8時間ごとにトークンを自動更新することで、ボットを手動介入なしで継続的に稼働させることができます。

Blackwell GB10でCUDA 13.0を使用してvLLMを実行する際の、aarch64固有の4つの障害モード
開発者が、CUDA 13.0を搭載したaarch64アーキテクチャのBlackwell GB10システム上でvLLM v0.7.1とDeepSeek-R1-32Bをセットアップする際に、ABIの不一致や依存関係の欠落など、4つの特定の障害モードに遭遇しました。