Оптимизация GLM-4.7-Flash на M4 Mac Mini с 24 ГБ оперативной памяти

Практическая конфигурация для GLM-4.7-Flash на оборудовании M4
Разработчик, тестирующий OpenClaw и Ollama на Mac Mini M4 с 24 ГБ оперативной памяти, поделился конкретными деталями оптимизации для запуска модели GLM-4.7-Flash. Источник предоставляет реальные данные о распределении памяти и параметры конфигурации, которые работают в рамках аппаратных ограничений.
Реальность памяти и выбор модели
Тестирование показывает, что эффективный бюджет памяти GPU на M4 Mini составляет примерно 17,8 ГБ Metal (GPU-wired), а не полные 24 ГБ. Остальное потребляется macOS, приложениями и вычислениями CPU. Это ограничение влияет на выбор модели и размер контекста.
- Квантование Q4_K_XL (17,5 ГБ GGUF) не может обработать контекст 32k: Модель (14,4 ГБ) + KV (2,8 ГБ) + вычисления (1,4 ГБ) = 18,6 ГБ → Недостаточно памяти
- Квантование Q3_K_XL (13,8 ГБ GGUF) работает с контекстом 32k: Модель (12,7 ГБ) + KV (3,2 ГБ) + вычисления (1,4 ГБ) = 16,1 ГБ с запасом 1,7 ГБ
- Предел контекста составляет примерно 34k до возникновения ошибки нехватки памяти
Детали конфигурации
Успешная настройка использует:
- Модель: unsloth/GLM-4.7-Flash-GGUF из Hugging Face
- Квантование: Q3_K_XL
- Размер контекста: 32k с MLA (Multi-Head Latent Attention)
- Реализация KV кэша: v-less KV cache от llama.cpp (PR #19067, Jan 2026), активируемая метаданными GGUF (key_length_mla, kv_lora_rank)
- Требование к сборке: llama.cpp b7860+
Реализация MLA значительно сокращает использование памяти KV — кэш KV для контекста 32k составляет всего 3,2 ГБ вместо 13 ГБ.
Особенности конкретных фреймворков
Агентные фреймворки, такие как OpenClaw, имеют внутренние пороги контекста, которые влияют на производительность:
- OpenClaw запускает агрессивную компрессию при контексте ниже 32k
- Увеличение контекста с 20k до 32k сократило время запуска с 5 минут до 2 минут 17 секунд
- Проходы компрессии сократились с 2 до 1 при соответствии num_ctx порогам фреймворка
- num_ctx должен быть зафиксирован в Ollama Modelfile — OpenClaw и другие оркестраторы, использующие OpenAI-совместимый API Ollama, игнорируют его на уровне запроса
Данные тестирования производительности
Разработчик предоставил конкретные данные о времени выполнения различных задач:
Задача Время Входные токены Компрессии Результат Введение личности 119с ~13 900 2 ✅ Воспроизведение профиля 60с 13 247 2 ✅ с оговоркой Создание задачи 61с 13 375 2 ✅ Запись в память 165с 14 448 2 ✅ Воспроизведение памяти 89с 14 085 2 ✅ Веб-поиск + синтез 273с 18 668 2 ✅
Особенности MLX
Разработчик отмечает, что MLX и GGUF — это разные форматы — файлы GGUF от Unsloth/bartowski не могут запускаться с mlx-lm. В настоящее время в репозитории mlx-community нет 3-битной модели Flash, доступны только 4-битные модели.
📖 Read the full source: r/openclaw
👀 Смотрите также

Opus 4.7 испортил 40% запросов; исправлением стало структурирование CLAUDE.md и навыков
После того как Opus 4.7 ухудшил ~40% промптов в 6 настройках, фракционный руководитель по ИИ исправил это, заменив ad-hoc промпты структурированными файлами Skill, иерархическим CLAUDE.md и отдельными файлами памяти — сократив использование токенов на 22% и количество итераций с 3–4 до 1–2.

Анализ плагина памяти OpenClaw: Lossless Claw + LanceDB рекомендуется
Разработчик протестировал плагины памяти OpenClaw и обнаружил, что стандартная настройка вызывает раздувание токенов, в то время как сочетание Lossless Claw с LanceDB обеспечивает оптимальную производительность для поддержания контекста агента без высоких затрат.

Практические методы для снижения дрейфа состояния в многошаговых ИИ-агентах
Разработчик делится конкретными методами устранения дрейфа состояния в многозадачных рабочих процессах, включая чтение на основе снимков, исключительно добавление записей и разделение состояния и контекста. Эти подходы сделали запуски воспроизводимыми, а отладку — отслеживаемой.

Понимание структуры папки .claude/ для настройки Claude Code
Папка .claude/ содержит два каталога: project-level для командной конфигурации и глобальный ~/.claude/ для личных предпочтений. Файлы CLAUDE.md содержат инструкции, которым Клод следует на протяжении сессий, а CLAUDE.local.md предназначен для личных переопределений.