Optimisation de GLM-4.7-Flash sur Mac Mini M4 avec 24 Go de RAM

✍️ OpenClawRadar📅 Publié: February 24, 2026🔗 Source
Optimisation de GLM-4.7-Flash sur Mac Mini M4 avec 24 Go de RAM
Ad

Configuration Pratique pour GLM-4.7-Flash sur Matériel M4

Un développeur testant OpenClaw et Ollama sur un Mac Mini M4 avec 24 Go de RAM a partagé des détails d'optimisation spécifiques pour exécuter le modèle GLM-4.7-Flash. La source fournit des réalités concrètes d'allocation mémoire et des paramètres de configuration qui fonctionnent dans les contraintes matérielles.

Réalité Mémoire et Sélection de Modèle

Les tests révèlent que le budget mémoire GPU effectif sur le M4 Mini est d'environ 17,8 Go Metal (GPU-wired), et non la totalité des 24 Go. Le reste est consommé par macOS, les applications et le calcul CPU. Cette limitation affecte la sélection du modèle et la taille du contexte.

  • La quantification Q4_K_XL (17,5 Go GGUF) ne peut pas gérer un contexte de 32k : Modèle (14,4 Go) + KV (2,8 Go) + calcul (1,4 Go) = 18,6 Go → Mémoire Insuffisante
  • La quantification Q3_K_XL (13,8 Go GGUF) fonctionne avec un contexte de 32k : Modèle (12,7 Go) + KV (3,2 Go) + calcul (1,4 Go) = 16,1 Go avec 1,7 Go de marge
  • La limite de contexte est d'environ 34k avant qu'une erreur de mémoire insuffisante ne se produise

Détails de Configuration

La configuration réussie utilise :

  • Modèle : unsloth/GLM-4.7-Flash-GGUF depuis Hugging Face
  • Quantification : Q3_K_XL
  • Taille de contexte : 32k avec MLA (Multi-Head Latent Attention)
  • Implémentation du cache KV : cache KV sans v de llama.cpp (PR #19067, janv. 2026) déclenché par les métadonnées GGUF (key_length_mla, kv_lora_rank)
  • Exigence de compilation : llama.cpp b7860+

L'implémentation MLA réduit considérablement l'utilisation de la mémoire KV - le cache KV pour un contexte de 32k n'est que de 3,2 Go au lieu de 13 Go.

Ad

Considérations Spécifiques au Cadre

Les cadres agentiques comme OpenClaw ont des seuils de contexte internes qui affectent les performances :

  • OpenClaw déclenche une compaction agressive en dessous de 32k de contexte
  • Augmenter le contexte de 20k à 32k a réduit le temps de démarrage de 5 minutes à 2 minutes 17 secondes
  • Les passes de compaction sont passées de 2 à 1 en alignant num_ctx sur les seuils du cadre
  • num_ctx doit être intégré dans le Modelfile d'Ollama - OpenClaw et les autres orchestrateurs utilisant l'API compatible OpenAI d'Ollama l'ignorent au niveau de la requête

Données de Test de Performance

Le développeur a fourni des données de timing spécifiques pour diverses tâches :

Tâche                     Temps   Jetons d'Entrée  Compactions  Résultat
Introduction personnalité 119s    ~13 900          2            ✅
Rappel de profil          60s     13 247           2            ✅ avec réserve
Création de tâche         61s     13 375           2            ✅
Écriture mémoire          165s    14 448           2            ✅
Rappel mémoire            89s     14 085           2            ✅
Recherche web + synthèse  273s    18 668           2            ✅

Considérations MLX

Le développeur note que MLX et GGUF sont des formats différents - les fichiers GGUF Unsloth/bartowski ne peuvent pas s'exécuter avec mlx-lm. Actuellement, aucun modèle Flash 3 bits n'existe dans le dépôt mlx-community, seuls les modèles 4 bits sont disponibles.

📖 Lire la source complète : r/openclaw

Ad

👀 See Also

Optimisation des performances Java : huit anti-modèles qui ralentissent votre code
Guides

Optimisation des performances Java : huit anti-modèles qui ralentissent votre code

Une application Java de traitement de commandes a amélioré son temps d'exécution de 1 198 ms à 239 ms, son débit de 85 000 à 419 000 commandes par seconde, et son utilisation du tas de 1 Go à 139 Mo en corrigeant huit anti-modèles courants identifiés par le profilage Java Flight Recording.

OpenClawRadar
Ce qui se casse quand on exécute des agents de codage sur de petits modèles locaux
Guides

Ce qui se casse quand on exécute des agents de codage sur de petits modèles locaux

Points de défaillance réels issus de tests de tâches multi-fichiers sur des modèles de moins de 7B : délimiteurs Markdown, fiabilité des sorties structurées, erreurs d'édition de fichiers et classification des actions en lecture ou écriture.

OpenClawRadar
Problèmes de mise à jour d'OpenClaw v2026.3.22 et correctifs en 30 secondes
Guides

Problèmes de mise à jour d'OpenClaw v2026.3.22 et correctifs en 30 secondes

La mise à jour OpenClaw v2026.3.22 a introduit 12 changements majeurs, notamment le fait que ClawHub est devenu le magasin de plugins par défaut et la suppression de variables d'environnement obsolètes. Cinq problèmes courants avec des solutions rapides incluent les pics de facturation API, les actions involontaires des agents et les erreurs de configuration.

OpenClawRadar
Exporter l'historique de ChatGPT vers le système de mémoire OpenClaw
Guides

Exporter l'historique de ChatGPT vers le système de mémoire OpenClaw

Un utilisateur de Reddit partage un processus pour exporter des années d'historique de conversations ChatGPT et l'importer dans le système de mémoire d'OpenClaw en utilisant l'outil ai-chat-md-export, permettant aux agents IA locaux d'accéder au contexte historique.

OpenClawRadar