Локальные LLM на Mac Studio: GLM 5.1, Kimi K2.6 и Claude Code

На r/LocalLLaMA пользователь ezyz опубликовал свой набор локальных LLM для Mac Studio по состоянию на май 2026 года, работающий на M3 Ultra с 512 ГБ унифицированной памяти. Пост — это скорее дневниковая оценка, а не строгие бенчмарки, но он полон практических наблюдений для тех, кто запускает большие модели локально для кодинга с Claude Code.

Текущие активные модели и производительность

GLM 5.1 — самый большой победитель. В квантованном виде он занимает ~380 ГБ с максимальным контекстом, оставляя место для других задач. Скорость декодирования ~17 t/s, префилл ~190 t/s. Автор доверяет ему до 6/10 по сложности задач (10 — «легаси код с неясными требованиями») для кодинга через Claude Code. Он стабильно справляется с автономными, полуограниченными задачами, иногда привлекая API Claude для планирования или доработок.

Kimi K2.6 находится в той же категории — не очевидно лучше или хуже — но он больше. Даже при агрессивном квантовании он использует ~460 ГБ, оставляя мало места для других экспериментов. Он быстрее: префилл ~220 t/s, декодирование ~21 t/s. Неудобство в том, что для тяжелых экспериментов с памятью его приходится выгружать.

Minimax 2.7 впечатляет размером и скоростью, но автор оценивает его лишь на 3-4/10 для разработки. У него неудобный размер — GLM и Kimi выигрывают в генерации рабочего кода, а маленькие модели — в ассистентских задачах типа «обобщи этот веб-поиск». Он быстро выходит из рассуждения для простых запросов.

Gemma 4 31B разочаровала: поддержка MLX всё ещё нестабильна спустя месяц после релиза. Плотная 31B не намного быстрее больших MoE, официальный чат-шаблон содержит несколько неисправленных багов, а патчи всё ещё поступают. Автор планирует вернуться к ней, когда стабилизируется поддержка MTP/draft.

Qwen 3.6 35B была заменена на Qwen 3.5 9B для мультимодальных задач, таких как перевод скриншотов — она достаточно хороша и быстра, и справляется с фоновыми задачами Haiku от Claude Code без заметной разницы, экономя ~14 ГБ памяти.

Ожидаемая поддержка и будущие планы

Ни Deepseek 4 Flash, ни Mimo 2.5 ещё официально не появились в llama.cpp или mlx-lm. Автор попробует PR, когда будет время. Он предполагает, что pro-версии обеих будут слишком большими и медленными для M3 Ultra — 40B активных параметров GLM — это примерно предел его терпения.

Проекты, за которыми следят с нетерпением:

Exo и tinygrad для кластеризации Mac + NVIDIA и разобщенного префилла
Поддержка Stable Dflash / DDtree / MTP
Новые форматы квантования (paroquant, JANGTQ) — см. llama.cpp PR #21038
Локальная генерация музыки — Ace Step 1.5 «почти хороша», но голоса пока не те.

📖 Читать полный источник: r/LocalLLaMA

Mac Studio本地LLM配置：GLM 5.1、Kimi K2.6以及配合Claude Code进行编码的有效方案

Текущие активные модели и производительность

Ожидаемая поддержка и будущие планы

👀 Смотрите также

Claude Code создает печатные визитки через HTML + Playwright

OpenClaw + SalesBlink: Автономное управление аутрич-кампаниями сокращает время с 10 часов до 1 часа в неделю

Процесс создания видео OpenClaw: Снижение уровня автоматизации до 80% при улучшении качества

Разделение ИИ-агентов для предотвращения потери контекста