Оптимизация GLM-4.7-Flash на M4 Mac Mini с 24 ГБ оперативной памяти

✍️ OpenClawRadar📅 Опубликовано: 24 февраля 2026 г.🔗 Source

Практическая конфигурация для GLM-4.7-Flash на оборудовании M4

Разработчик, тестирующий OpenClaw и Ollama на Mac Mini M4 с 24 ГБ оперативной памяти, поделился конкретными деталями оптимизации для запуска модели GLM-4.7-Flash. Источник предоставляет реальные данные о распределении памяти и параметры конфигурации, которые работают в рамках аппаратных ограничений.

Реальность памяти и выбор модели

Тестирование показывает, что эффективный бюджет памяти GPU на M4 Mini составляет примерно 17,8 ГБ Metal (GPU-wired), а не полные 24 ГБ. Остальное потребляется macOS, приложениями и вычислениями CPU. Это ограничение влияет на выбор модели и размер контекста.

Квантование Q4_K_XL (17,5 ГБ GGUF) не может обработать контекст 32k: Модель (14,4 ГБ) + KV (2,8 ГБ) + вычисления (1,4 ГБ) = 18,6 ГБ → Недостаточно памяти
Квантование Q3_K_XL (13,8 ГБ GGUF) работает с контекстом 32k: Модель (12,7 ГБ) + KV (3,2 ГБ) + вычисления (1,4 ГБ) = 16,1 ГБ с запасом 1,7 ГБ
Предел контекста составляет примерно 34k до возникновения ошибки нехватки памяти

Детали конфигурации

Успешная настройка использует:

Модель: unsloth/GLM-4.7-Flash-GGUF из Hugging Face
Квантование: Q3_K_XL
Размер контекста: 32k с MLA (Multi-Head Latent Attention)
Реализация KV кэша: v-less KV cache от llama.cpp (PR #19067, Jan 2026), активируемая метаданными GGUF (key_length_mla, kv_lora_rank)
Требование к сборке: llama.cpp b7860+

Реализация MLA значительно сокращает использование памяти KV — кэш KV для контекста 32k составляет всего 3,2 ГБ вместо 13 ГБ.

Особенности конкретных фреймворков

Агентные фреймворки, такие как OpenClaw, имеют внутренние пороги контекста, которые влияют на производительность:

OpenClaw запускает агрессивную компрессию при контексте ниже 32k
Увеличение контекста с 20k до 32k сократило время запуска с 5 минут до 2 минут 17 секунд
Проходы компрессии сократились с 2 до 1 при соответствии num_ctx порогам фреймворка
num_ctx должен быть зафиксирован в Ollama Modelfile — OpenClaw и другие оркестраторы, использующие OpenAI-совместимый API Ollama, игнорируют его на уровне запроса

Данные тестирования производительности

Разработчик предоставил конкретные данные о времени выполнения различных задач:

Задача                     Время   Входные токены  Компрессии  Результат
Введение личности         119с    ~13 900         2           ✅
Воспроизведение профиля   60с     13 247          2           ✅ с оговоркой
Создание задачи           61с     13 375          2           ✅
Запись в память           165с    14 448          2           ✅
Воспроизведение памяти    89с     14 085          2           ✅
Веб-поиск + синтез        273с    18 668          2           ✅

Особенности MLX

Разработчик отмечает, что MLX и GGUF — это разные форматы — файлы GGUF от Unsloth/bartowski не могут запускаться с mlx-lm. В настоящее время в репозитории mlx-community нет 3-битной модели Flash, доступны только 4-битные модели.

📖 Read the full source: r/openclaw

👀 Смотрите также

Гайды

Метод передачи пользовательского контекста из ChatGPT в Claude

Пользователь Reddit делится двухэтапным методом извлечения детального когнитивного профиля из ChatGPT и создания портативной конституции ИИ для переноса в Claude, решая проблему перехода между системами ИИ.

13 апр. 2026 г., 15:45 UTC

OpenClawRadar

Гайды

Как защитить Claude Cowork с помощью прокси-слоя: практическое руководство

Пошаговое руководство по настройке прокси-уровня для наблюдения и обеспечения безопасности поведения Claude Cowork, опубликованное командой General Analysis.

1 мая 2026 г., 22:19 UTC

OpenClawRadar

Гайды

Освоение OpenClaw 101: Руководство для начинающих, вдохновленное идеями пользователей Reddit.

Погрузитесь в OpenClaw с нашим практическим руководством, вдохновленным мнениями сообщества Reddit. Избегайте распространенных ошибок и повышайте свою продуктивность с помощью этих экспертных советов.

9 февр. 2026 г., 15:07 UTC

OpenClawRadar

Гайды

Файлы CLAUDE.md часто организованы для разработчиков, а не для ИИ-моделей — вот почему это важно

Файлы CLAUDE.md часто помещают жесткие правила в строку 47, после контекста и технологического стека. К тому времени, когда модель читает ограничения, она уже построила противоречивые предположения. Лучшая структура ставит жесткие правила на первое место.

14 мая 2026 г., 12:18 UTC

OpenClawRadar