Mac Studio本地LLM配置:GLM 5.1、Kimi K2.6以及配合Claude Code进行编码的有效方案

На r/LocalLLaMA пользователь ezyz опубликовал свой набор локальных LLM для Mac Studio по состоянию на май 2026 года, работающий на M3 Ultra с 512 ГБ унифицированной памяти. Пост — это скорее дневниковая оценка, а не строгие бенчмарки, но он полон практических наблюдений для тех, кто запускает большие модели локально для кодинга с Claude Code.
Текущие активные модели и производительность
GLM 5.1 — самый большой победитель. В квантованном виде он занимает ~380 ГБ с максимальным контекстом, оставляя место для других задач. Скорость декодирования ~17 t/s, префилл ~190 t/s. Автор доверяет ему до 6/10 по сложности задач (10 — «легаси код с неясными требованиями») для кодинга через Claude Code. Он стабильно справляется с автономными, полуограниченными задачами, иногда привлекая API Claude для планирования или доработок.
Kimi K2.6 находится в той же категории — не очевидно лучше или хуже — но он больше. Даже при агрессивном квантовании он использует ~460 ГБ, оставляя мало места для других экспериментов. Он быстрее: префилл ~220 t/s, декодирование ~21 t/s. Неудобство в том, что для тяжелых экспериментов с памятью его приходится выгружать.
Minimax 2.7 впечатляет размером и скоростью, но автор оценивает его лишь на 3-4/10 для разработки. У него неудобный размер — GLM и Kimi выигрывают в генерации рабочего кода, а маленькие модели — в ассистентских задачах типа «обобщи этот веб-поиск». Он быстро выходит из рассуждения для простых запросов.
Gemma 4 31B разочаровала: поддержка MLX всё ещё нестабильна спустя месяц после релиза. Плотная 31B не намного быстрее больших MoE, официальный чат-шаблон содержит несколько неисправленных багов, а патчи всё ещё поступают. Автор планирует вернуться к ней, когда стабилизируется поддержка MTP/draft.
Qwen 3.6 35B была заменена на Qwen 3.5 9B для мультимодальных задач, таких как перевод скриншотов — она достаточно хороша и быстра, и справляется с фоновыми задачами Haiku от Claude Code без заметной разницы, экономя ~14 ГБ памяти.
Ожидаемая поддержка и будущие планы
Ни Deepseek 4 Flash, ни Mimo 2.5 ещё официально не появились в llama.cpp или mlx-lm. Автор попробует PR, когда будет время. Он предполагает, что pro-версии обеих будут слишком большими и медленными для M3 Ultra — 40B активных параметров GLM — это примерно предел его терпения.
Проекты, за которыми следят с нетерпением:
- Exo и tinygrad для кластеризации Mac + NVIDIA и разобщенного префилла
- Поддержка Stable Dflash / DDtree / MTP
- Новые форматы квантования (paroquant, JANGTQ) — см. llama.cpp PR #21038
- Локальная генерация музыки — Ace Step 1.5 «почти хороша», но голоса пока не те.
📖 Читать полный источник: r/LocalLLaMA
👀 Смотрите также

Параллельное выполнение для ИИ-агентов Claude достигнуто с помощью распределенного системного подхода.
Разработчик успешно запустил 41 агента Claude AI параллельно без конфликтов и сэкономил 58% времени, рассматривая агентов как распределённую систему с чётко определёнными обязанностями, а не как групповой чат.

Искусственный интеллект Claude используется как резервный мозг для Alexa для обработки неподдерживаемых команд.
Разработчик создал легковесный слой, в котором Claude AI обрабатывает каждую неудачную команду Alexa, работая с хинди, трансляцией CCTV и управлением неумными устройствами. Система использует WebSocket для управления телевизором, DLNA для приставок и преобразование RTSP→HLS для CCTV.

Непрограммист создает SaaS-приложение с помощью Claude в качестве партнера по кодированию
Директор по операциям с данными без опыта в разработке программного обеспечения использовал Claude для создания и запуска полноценного SaaS-приложения под названием The Pit Preacher — помощника для барбекю на базе искусственного интеллекта с использованием Next.js 14, аутентификации Supabase, платежей Stripe и развертывания на Vercel.

Создание персонального ИИ-агента с помощью Claude Code: Уроки за 6 месяцев работы с Wiz
Разработчик делится своим опытом создания Wiz — персонального ИИ-агента на Claude Code, который обрабатывает утренние отчёты, вечерние сводки и сортировку входящих писем. В посте подробно описаны 9 ошибок, допущенных в процессе разработки, включая постановку излишне амбициозных целей и разрешение Claude генерировать основные инструкции без проверки.