Оптимизация GLM-4.7-Flash на M4 Mac Mini с 24 ГБ оперативной памяти

✍️ OpenClawRadar📅 Опубликовано: 24 февраля 2026 г.🔗 Source
Оптимизация GLM-4.7-Flash на M4 Mac Mini с 24 ГБ оперативной памяти
Ad

Практическая конфигурация для GLM-4.7-Flash на оборудовании M4

Разработчик, тестирующий OpenClaw и Ollama на Mac Mini M4 с 24 ГБ оперативной памяти, поделился конкретными деталями оптимизации для запуска модели GLM-4.7-Flash. Источник предоставляет реальные данные о распределении памяти и параметры конфигурации, которые работают в рамках аппаратных ограничений.

Реальность памяти и выбор модели

Тестирование показывает, что эффективный бюджет памяти GPU на M4 Mini составляет примерно 17,8 ГБ Metal (GPU-wired), а не полные 24 ГБ. Остальное потребляется macOS, приложениями и вычислениями CPU. Это ограничение влияет на выбор модели и размер контекста.

  • Квантование Q4_K_XL (17,5 ГБ GGUF) не может обработать контекст 32k: Модель (14,4 ГБ) + KV (2,8 ГБ) + вычисления (1,4 ГБ) = 18,6 ГБ → Недостаточно памяти
  • Квантование Q3_K_XL (13,8 ГБ GGUF) работает с контекстом 32k: Модель (12,7 ГБ) + KV (3,2 ГБ) + вычисления (1,4 ГБ) = 16,1 ГБ с запасом 1,7 ГБ
  • Предел контекста составляет примерно 34k до возникновения ошибки нехватки памяти

Детали конфигурации

Успешная настройка использует:

  • Модель: unsloth/GLM-4.7-Flash-GGUF из Hugging Face
  • Квантование: Q3_K_XL
  • Размер контекста: 32k с MLA (Multi-Head Latent Attention)
  • Реализация KV кэша: v-less KV cache от llama.cpp (PR #19067, Jan 2026), активируемая метаданными GGUF (key_length_mla, kv_lora_rank)
  • Требование к сборке: llama.cpp b7860+

Реализация MLA значительно сокращает использование памяти KV — кэш KV для контекста 32k составляет всего 3,2 ГБ вместо 13 ГБ.

Ad

Особенности конкретных фреймворков

Агентные фреймворки, такие как OpenClaw, имеют внутренние пороги контекста, которые влияют на производительность:

  • OpenClaw запускает агрессивную компрессию при контексте ниже 32k
  • Увеличение контекста с 20k до 32k сократило время запуска с 5 минут до 2 минут 17 секунд
  • Проходы компрессии сократились с 2 до 1 при соответствии num_ctx порогам фреймворка
  • num_ctx должен быть зафиксирован в Ollama Modelfile — OpenClaw и другие оркестраторы, использующие OpenAI-совместимый API Ollama, игнорируют его на уровне запроса

Данные тестирования производительности

Разработчик предоставил конкретные данные о времени выполнения различных задач:

Задача                     Время   Входные токены  Компрессии  Результат
Введение личности         119с    ~13 900         2           ✅
Воспроизведение профиля   60с     13 247          2           ✅ с оговоркой
Создание задачи           61с     13 375          2           ✅
Запись в память           165с    14 448          2           ✅
Воспроизведение памяти    89с     14 085          2           ✅
Веб-поиск + синтез        273с    18 668          2           ✅

Особенности MLX

Разработчик отмечает, что MLX и GGUF — это разные форматы — файлы GGUF от Unsloth/bartowski не могут запускаться с mlx-lm. В настоящее время в репозитории mlx-community нет 3-битной модели Flash, доступны только 4-битные модели.

📖 Read the full source: r/openclaw

Ad

👀 Смотрите также

Opus 4.7 испортил 40% запросов; исправлением стало структурирование CLAUDE.md и навыков
Гайды

Opus 4.7 испортил 40% запросов; исправлением стало структурирование CLAUDE.md и навыков

После того как Opus 4.7 ухудшил ~40% промптов в 6 настройках, фракционный руководитель по ИИ исправил это, заменив ad-hoc промпты структурированными файлами Skill, иерархическим CLAUDE.md и отдельными файлами памяти — сократив использование токенов на 22% и количество итераций с 3–4 до 1–2.

OpenClawRadar
Анализ плагина памяти OpenClaw: Lossless Claw + LanceDB рекомендуется
Гайды

Анализ плагина памяти OpenClaw: Lossless Claw + LanceDB рекомендуется

Разработчик протестировал плагины памяти OpenClaw и обнаружил, что стандартная настройка вызывает раздувание токенов, в то время как сочетание Lossless Claw с LanceDB обеспечивает оптимальную производительность для поддержания контекста агента без высоких затрат.

OpenClawRadar
Практические методы для снижения дрейфа состояния в многошаговых ИИ-агентах
Гайды

Практические методы для снижения дрейфа состояния в многошаговых ИИ-агентах

Разработчик делится конкретными методами устранения дрейфа состояния в многозадачных рабочих процессах, включая чтение на основе снимков, исключительно добавление записей и разделение состояния и контекста. Эти подходы сделали запуски воспроизводимыми, а отладку — отслеживаемой.

OpenClawRadar
Понимание структуры папки .claude/ для настройки Claude Code
Гайды

Понимание структуры папки .claude/ для настройки Claude Code

Папка .claude/ содержит два каталога: project-level для командной конфигурации и глобальный ~/.claude/ для личных предпочтений. Файлы CLAUDE.md содержат инструкции, которым Клод следует на протяжении сессий, а CLAUDE.local.md предназначен для личных переопределений.

OpenClawRadar