Ejecutar GLM-4.7-Flash en M4 Mac Mini 24GB: Guía

Configuración Práctica para GLM-4.7-Flash en Hardware M4

Un desarrollador que probó OpenClaw y Ollama en una Mac Mini M4 con 24 GB de RAM ha compartido detalles específicos de optimización para ejecutar el modelo GLM-4.7-Flash. La fuente proporciona realidades concretas de asignación de memoria y parámetros de configuración que funcionan dentro de las limitaciones del hardware.

Realidad de Memoria y Selección de Modelo

Las pruebas revelan que el presupuesto efectivo de memoria GPU en la M4 Mini es aproximadamente 17.8 GB Metal (GPU-wired), no los 24 GB completos. El resto es consumido por macOS, aplicaciones y cómputo de CPU. Esta limitación afecta la selección de modelos y el tamaño de contexto.

Cuantización Q4_K_XL (17.5 GB GGUF) no puede manejar contexto de 32k: Modelo (14.4 GB) + KV (2.8 GB) + cómputo (1.4 GB) = 18.6 GB → Sin Memoria
Cuantización Q3_K_XL (13.8 GB GGUF) funciona con contexto de 32k: Modelo (12.7 GB) + KV (3.2 GB) + cómputo (1.4 GB) = 16.1 GB con 1.7 GB de margen
El límite de contexto es aproximadamente 34k antes de que ocurra OOM

Detalles de Configuración

La configuración exitosa utiliza:

Modelo: unsloth/GLM-4.7-Flash-GGUF de Hugging Face
Cuantización: Q3_K_XL
Tamaño de contexto: 32k con MLA (Atención Latente Multi-Cabezal)
Implementación de caché KV: caché KV sin v de llama.cpp (PR #19067, enero 2026) activada por metadatos GGUF (key_length_mla, kv_lora_rank)
Requisito de compilación: llama.cpp b7860+

La implementación de MLA reduce significativamente el uso de memoria KV: el caché KV de contexto de 32k es solo 3.2 GB en lugar de 13 GB.

Consideraciones Específicas del Framework

Frameworks agentes como OpenClaw tienen umbrales de contexto internos que afectan el rendimiento:

OpenClaw activa compactación agresiva por debajo de 32k de contexto
Aumentar el contexto de 20k a 32k redujo el tiempo de inicio de 5 minutos a 2 minutos 17 segundos
Las pasadas de compactación bajaron de 2 a 1 al igualar num_ctx con los umbrales del framework
num_ctx debe integrarse en el Modelfile de Ollama - OpenClaw y otros orquestadores que usan la API compatible con OpenAI de Ollama lo ignoran a nivel de solicitud

Datos de Pruebas de Rendimiento

El desarrollador proporcionó datos de tiempo específicos para varias tareas:

Tarea                     Tiempo   Tokens Entrada  Compactaciones  Resultado
Introducción personalidad 119s     ~13,900         2               ✅
Recuerdo de perfil        60s      13,247          2               ✅ con advertencia
Creación de tarea         61s      13,375          2               ✅
Escritura de memoria      165s     14,448          2               ✅
Recuerdo de memoria       89s      14,085          2               ✅
Búsqueda web + síntesis   273s     18,668          2               ✅

Consideraciones de MLX

El desarrollador señala que MLX y GGUF son formatos diferentes: los archivos GGUF de Unsloth/bartowski no pueden ejecutarse con mlx-lm. Actualmente, no existe ningún modelo Flash de 3 bits en el repositorio mlx-community, solo hay modelos de 4 bits disponibles.

📖 Leer la fuente completa: r/openclaw