Exécuter GLM-4.7-Flash sur Mac Mini M4 24 Go

Configuration Pratique pour GLM-4.7-Flash sur Matériel M4

Un développeur testant OpenClaw et Ollama sur un Mac Mini M4 avec 24 Go de RAM a partagé des détails d'optimisation spécifiques pour exécuter le modèle GLM-4.7-Flash. La source fournit des réalités concrètes d'allocation mémoire et des paramètres de configuration qui fonctionnent dans les contraintes matérielles.

Réalité Mémoire et Sélection de Modèle

Les tests révèlent que le budget mémoire GPU effectif sur le M4 Mini est d'environ 17,8 Go Metal (GPU-wired), et non la totalité des 24 Go. Le reste est consommé par macOS, les applications et le calcul CPU. Cette limitation affecte la sélection du modèle et la taille du contexte.

La quantification Q4_K_XL (17,5 Go GGUF) ne peut pas gérer un contexte de 32k : Modèle (14,4 Go) + KV (2,8 Go) + calcul (1,4 Go) = 18,6 Go → Mémoire Insuffisante
La quantification Q3_K_XL (13,8 Go GGUF) fonctionne avec un contexte de 32k : Modèle (12,7 Go) + KV (3,2 Go) + calcul (1,4 Go) = 16,1 Go avec 1,7 Go de marge
La limite de contexte est d'environ 34k avant qu'une erreur de mémoire insuffisante ne se produise

Détails de Configuration

La configuration réussie utilise :

Modèle : unsloth/GLM-4.7-Flash-GGUF depuis Hugging Face
Quantification : Q3_K_XL
Taille de contexte : 32k avec MLA (Multi-Head Latent Attention)
Implémentation du cache KV : cache KV sans v de llama.cpp (PR #19067, janv. 2026) déclenché par les métadonnées GGUF (key_length_mla, kv_lora_rank)
Exigence de compilation : llama.cpp b7860+

L'implémentation MLA réduit considérablement l'utilisation de la mémoire KV - le cache KV pour un contexte de 32k n'est que de 3,2 Go au lieu de 13 Go.

Considérations Spécifiques au Cadre

Les cadres agentiques comme OpenClaw ont des seuils de contexte internes qui affectent les performances :

OpenClaw déclenche une compaction agressive en dessous de 32k de contexte
Augmenter le contexte de 20k à 32k a réduit le temps de démarrage de 5 minutes à 2 minutes 17 secondes
Les passes de compaction sont passées de 2 à 1 en alignant num_ctx sur les seuils du cadre
num_ctx doit être intégré dans le Modelfile d'Ollama - OpenClaw et les autres orchestrateurs utilisant l'API compatible OpenAI d'Ollama l'ignorent au niveau de la requête

Données de Test de Performance

Le développeur a fourni des données de timing spécifiques pour diverses tâches :

Tâche                     Temps   Jetons d'Entrée  Compactions  Résultat
Introduction personnalité 119s    ~13 900          2            ✅
Rappel de profil          60s     13 247           2            ✅ avec réserve
Création de tâche         61s     13 375           2            ✅
Écriture mémoire          165s    14 448           2            ✅
Rappel mémoire            89s     14 085           2            ✅
Recherche web + synthèse  273s    18 668           2            ✅

Considérations MLX

Le développeur note que MLX et GGUF sont des formats différents - les fichiers GGUF Unsloth/bartowski ne peuvent pas s'exécuter avec mlx-lm. Actuellement, aucun modèle Flash 3 bits n'existe dans le dépôt mlx-community, seuls les modèles 4 bits sont disponibles.

📖 Lire la source complète : r/openclaw