Optimizando GLM-4.7-Flash en M4 Mac Mini con 24GB de RAM

Configuración Práctica para GLM-4.7-Flash en Hardware M4
Un desarrollador que probó OpenClaw y Ollama en una Mac Mini M4 con 24 GB de RAM ha compartido detalles específicos de optimización para ejecutar el modelo GLM-4.7-Flash. La fuente proporciona realidades concretas de asignación de memoria y parámetros de configuración que funcionan dentro de las limitaciones del hardware.
Realidad de Memoria y Selección de Modelo
Las pruebas revelan que el presupuesto efectivo de memoria GPU en la M4 Mini es aproximadamente 17.8 GB Metal (GPU-wired), no los 24 GB completos. El resto es consumido por macOS, aplicaciones y cómputo de CPU. Esta limitación afecta la selección de modelos y el tamaño de contexto.
- Cuantización Q4_K_XL (17.5 GB GGUF) no puede manejar contexto de 32k: Modelo (14.4 GB) + KV (2.8 GB) + cómputo (1.4 GB) = 18.6 GB → Sin Memoria
- Cuantización Q3_K_XL (13.8 GB GGUF) funciona con contexto de 32k: Modelo (12.7 GB) + KV (3.2 GB) + cómputo (1.4 GB) = 16.1 GB con 1.7 GB de margen
- El límite de contexto es aproximadamente 34k antes de que ocurra OOM
Detalles de Configuración
La configuración exitosa utiliza:
- Modelo: unsloth/GLM-4.7-Flash-GGUF de Hugging Face
- Cuantización: Q3_K_XL
- Tamaño de contexto: 32k con MLA (Atención Latente Multi-Cabezal)
- Implementación de caché KV: caché KV sin v de llama.cpp (PR #19067, enero 2026) activada por metadatos GGUF (key_length_mla, kv_lora_rank)
- Requisito de compilación: llama.cpp b7860+
La implementación de MLA reduce significativamente el uso de memoria KV: el caché KV de contexto de 32k es solo 3.2 GB en lugar de 13 GB.
Consideraciones Específicas del Framework
Frameworks agentes como OpenClaw tienen umbrales de contexto internos que afectan el rendimiento:
- OpenClaw activa compactación agresiva por debajo de 32k de contexto
- Aumentar el contexto de 20k a 32k redujo el tiempo de inicio de 5 minutos a 2 minutos 17 segundos
- Las pasadas de compactación bajaron de 2 a 1 al igualar num_ctx con los umbrales del framework
- num_ctx debe integrarse en el Modelfile de Ollama - OpenClaw y otros orquestadores que usan la API compatible con OpenAI de Ollama lo ignoran a nivel de solicitud
Datos de Pruebas de Rendimiento
El desarrollador proporcionó datos de tiempo específicos para varias tareas:
Tarea Tiempo Tokens Entrada Compactaciones Resultado Introducción personalidad 119s ~13,900 2 ✅ Recuerdo de perfil 60s 13,247 2 ✅ con advertencia Creación de tarea 61s 13,375 2 ✅ Escritura de memoria 165s 14,448 2 ✅ Recuerdo de memoria 89s 14,085 2 ✅ Búsqueda web + síntesis 273s 18,668 2 ✅
Consideraciones de MLX
El desarrollador señala que MLX y GGUF son formatos diferentes: los archivos GGUF de Unsloth/bartowski no pueden ejecutarse con mlx-lm. Actualmente, no existe ningún modelo Flash de 3 bits en el repositorio mlx-community, solo hay modelos de 4 bits disponibles.
📖 Leer la fuente completa: r/openclaw
👀 Ver también

Implementando un Sistema de Meditación Recurrente para la Coherencia del Agente OpenClaw
Un desarrollador comparte un sistema estructurado de reflexión para agentes OpenClaw utilizando una cadena específica de archivos que incluye meditations.md, reflections/*.md y archivos de identidad. El ciclo nocturno implica revisar y añadir contenido a estos archivos para fomentar la comprensión de cambios de comportamiento duraderos.

Configuración del Espacio de Trabajo de OpenClaw: Lecciones de Dos Meses de Uso
La experiencia de un desarrollador con OpenClaw muestra que la calidad del espacio de trabajo impacta el rendimiento del agente entre 5 y 10 veces, con orientación específica sobre SOUL.md, AGENTS.md, MEMORY.md, USER.md y la configuración de habilidades.

Construyendo un Sistema de Glosario Personalizado en Hindi con Claude: del 76% al 92% de Precisión en 10 Meses
Un desarrollador solitario en Bangalore creó un sistema de glosario personalizado para Claude que mejoró la precisión del vocabulario técnico en hindi del 76% al 92%. Los términos basados en ejemplos con oraciones de contexto funcionaron mejor.

Estructura de Código de Claude que Sobrevivió a Múltiples Proyectos Reales
Un desarrollador comparte una configuración de Claude Code que resistió en 2-3 proyectos reales con múltiples habilidades, servidores MCP y agentes. Los hallazgos clave incluyen usar CLAUDE MD para consistencia, dividir habilidades por intención, implementar hooks y mantener el uso de contexto por debajo del 60%.