GLM 5 на Mac M3: Наблюдения за производительностью при агентном программировании

Бенчмарки производительности и ограничения
Разработчик протестировал GLM 5 с использованием MLX 4-битного квантования на Mac M3 с 512 ГБ оперативной памяти для задач агентного программирования. Модель описывается как "вполне пригодная к использованию" при удержании контекста ниже примерно 50 000 токенов, хотя она значительно медленнее API-решений, таких как Claude, особенно во время обработки промптов.
Производительность существенно ухудшается, когда контекст превышает 50 тысяч токенов. В одном тесте при обработке 65 тысяч токенов первая половина завершилась за 8 минут (67 токенов/секунду), а вторая половина потребовала дополнительных 18 минут, что дало общую скорость 41 токен/секунду. Генерация токенов остаётся быстрее, оцениваясь в 12-20 токенов/секунду при больших размерах контекста.
Наблюдения за рабочим процессом
Пользователь отмечает, что Opencode (система агентного программирования) эффективно справляется с генерацией кода в нескольких файлах после создания плана, выводя "тысячи токенов кода в нескольких файлах всего за несколько минут с промежуточными рассуждениями". Обработка промптов обычно занимает "пару минут" для чтения нескольких сотен строк кода в каждом файле, с общим временем около 10 минут, распределённым между сессиями планирования.
Компактизация в Opencode "действительно занимает некоторое время, так как она, по сути, просто перерабатывает весь контекст". При ограничении контекста в 50 тысяч токенов компактизация занимает примерно 5 минут.
Техническая настройка и ожидания на будущее
Тест проводился с использованием LM Studio, который может не предоставлять последние оптимизации времени выполнения. Пользователь предполагает, что "MLX или даже GGUF могут получить более быструю обработку промптов по мере обновления сред выполнения для GLM 5, но, вероятно, не станут НАМНОГО быстрее, чем сейчас".
Данная настройка не рекомендуется для задач, требующих 70+ тысяч токенов в контексте, как из-за ограничений по размеру контекста, так и из-за "невыносимой медлительности", возникающей после превышения определённых порогов во время обработки промптов.
📖 Read the full source: r/LocalLLaMA
👀 Смотрите также

Разработчик делится решением проблемы игнорирования правил ИИ Claude после превышения порога в 50 сообщений.
Разработчик сообщает, что Claude Code начал тихо игнорировать правила, как только их общий набор правил превысил примерно 50 пунктов, особенно во время задач, связанных с фронтендом. Они создали хук, который сканирует промпты и загружает только 2-3 соответствующих правила на основе сопоставления ключевых слов.

OpenRoom: Веб-интерфейс рабочего стола для визуализации навыков ИИ-агентов
OpenRoom — это веб-среда рабочего стола, в которой работают ИИ-агенты, с обновлениями состояния системы в реальном времени, такими как дневники и файлы во время чат-взаимодействий, а также режимом прямой трансляции для взаимодействия нескольких ботов.

Контекстно-инженерная система обучения для Claude Code, выполняющая роль постоянного репетитора
Разработчик создал систему обучения на основе Claude Code, которая отслеживает прогресс между сессиями, проверяет понимание, прорабатывает упражнения и адаптируется к стилям обучения. Система использует структурированные markdown-файлы для формирования поведения агента и включает инструменты для извлечения страниц учебников из PDF-файлов.

Экспорт воспоминаний ИИ-агентов с использованием функции импорта Claude
Пользователь Reddit делится промптом для извлечения сохранённых воспоминаний из ИИ-агентов, таких как ChatGPT и Claude, с последующим импортом в OpenClaw. Промпт запрашивает весь сохранённый контекст, включая инструкции, личные данные, проекты, инструменты и предпочтения.