GLM 5 на Mac M3: Производительность для агентного программирования

Бенчмарки производительности и ограничения

Разработчик протестировал GLM 5 с использованием MLX 4-битного квантования на Mac M3 с 512 ГБ оперативной памяти для задач агентного программирования. Модель описывается как "вполне пригодная к использованию" при удержании контекста ниже примерно 50 000 токенов, хотя она значительно медленнее API-решений, таких как Claude, особенно во время обработки промптов.

Производительность существенно ухудшается, когда контекст превышает 50 тысяч токенов. В одном тесте при обработке 65 тысяч токенов первая половина завершилась за 8 минут (67 токенов/секунду), а вторая половина потребовала дополнительных 18 минут, что дало общую скорость 41 токен/секунду. Генерация токенов остаётся быстрее, оцениваясь в 12-20 токенов/секунду при больших размерах контекста.

Наблюдения за рабочим процессом

Пользователь отмечает, что Opencode (система агентного программирования) эффективно справляется с генерацией кода в нескольких файлах после создания плана, выводя "тысячи токенов кода в нескольких файлах всего за несколько минут с промежуточными рассуждениями". Обработка промптов обычно занимает "пару минут" для чтения нескольких сотен строк кода в каждом файле, с общим временем около 10 минут, распределённым между сессиями планирования.

Компактизация в Opencode "действительно занимает некоторое время, так как она, по сути, просто перерабатывает весь контекст". При ограничении контекста в 50 тысяч токенов компактизация занимает примерно 5 минут.

Техническая настройка и ожидания на будущее

Тест проводился с использованием LM Studio, который может не предоставлять последние оптимизации времени выполнения. Пользователь предполагает, что "MLX или даже GGUF могут получить более быструю обработку промптов по мере обновления сред выполнения для GLM 5, но, вероятно, не станут НАМНОГО быстрее, чем сейчас".

Данная настройка не рекомендуется для задач, требующих 70+ тысяч токенов в контексте, как из-за ограничений по размеру контекста, так и из-за "невыносимой медлительности", возникающей после превышения определённых порогов во время обработки промптов.

📖 Read the full source: r/LocalLLaMA

GLM 5 на Mac M3: Наблюдения за производительностью при агентном программировании

Бенчмарки производительности и ограничения

Наблюдения за рабочим процессом

Техническая настройка и ожидания на будущее

👀 Смотрите также

Критика: Локальный CLI с одним бинарником для обзора планов и различий агентов

SlackClaw: Управляемый экземпляр OpenClaw для интеграции со Slack

ProofShot CLI предоставляет AI-кодирующим агентам возможности верификации в браузере.

Результаты тестирования: система агентов Claude с памятью демонстрирует экономию токенов на 30-43%