Mac Studio本地LLM配置:GLM 5.1、Kimi K2.6以及配合Claude Code进行编码的有效方案

✍️ OpenClawRadar📅 Опубликовано: 7 мая 2026 г.🔗 Source
Mac Studio本地LLM配置:GLM 5.1、Kimi K2.6以及配合Claude Code进行编码的有效方案
Ad

На r/LocalLLaMA пользователь ezyz опубликовал свой набор локальных LLM для Mac Studio по состоянию на май 2026 года, работающий на M3 Ultra с 512 ГБ унифицированной памяти. Пост — это скорее дневниковая оценка, а не строгие бенчмарки, но он полон практических наблюдений для тех, кто запускает большие модели локально для кодинга с Claude Code.

Текущие активные модели и производительность

GLM 5.1 — самый большой победитель. В квантованном виде он занимает ~380 ГБ с максимальным контекстом, оставляя место для других задач. Скорость декодирования ~17 t/s, префилл ~190 t/s. Автор доверяет ему до 6/10 по сложности задач (10 — «легаси код с неясными требованиями») для кодинга через Claude Code. Он стабильно справляется с автономными, полуограниченными задачами, иногда привлекая API Claude для планирования или доработок.

Kimi K2.6 находится в той же категории — не очевидно лучше или хуже — но он больше. Даже при агрессивном квантовании он использует ~460 ГБ, оставляя мало места для других экспериментов. Он быстрее: префилл ~220 t/s, декодирование ~21 t/s. Неудобство в том, что для тяжелых экспериментов с памятью его приходится выгружать.

Minimax 2.7 впечатляет размером и скоростью, но автор оценивает его лишь на 3-4/10 для разработки. У него неудобный размер — GLM и Kimi выигрывают в генерации рабочего кода, а маленькие модели — в ассистентских задачах типа «обобщи этот веб-поиск». Он быстро выходит из рассуждения для простых запросов.

Gemma 4 31B разочаровала: поддержка MLX всё ещё нестабильна спустя месяц после релиза. Плотная 31B не намного быстрее больших MoE, официальный чат-шаблон содержит несколько неисправленных багов, а патчи всё ещё поступают. Автор планирует вернуться к ней, когда стабилизируется поддержка MTP/draft.

Qwen 3.6 35B была заменена на Qwen 3.5 9B для мультимодальных задач, таких как перевод скриншотов — она достаточно хороша и быстра, и справляется с фоновыми задачами Haiku от Claude Code без заметной разницы, экономя ~14 ГБ памяти.

Ad

Ожидаемая поддержка и будущие планы

Ни Deepseek 4 Flash, ни Mimo 2.5 ещё официально не появились в llama.cpp или mlx-lm. Автор попробует PR, когда будет время. Он предполагает, что pro-версии обеих будут слишком большими и медленными для M3 Ultra — 40B активных параметров GLM — это примерно предел его терпения.

Проекты, за которыми следят с нетерпением:

  • Exo и tinygrad для кластеризации Mac + NVIDIA и разобщенного префилла
  • Поддержка Stable Dflash / DDtree / MTP
  • Новые форматы квантования (paroquant, JANGTQ) — см. llama.cpp PR #21038
  • Локальная генерация музыки — Ace Step 1.5 «почти хороша», но голоса пока не те.

📖 Читать полный источник: r/LocalLLaMA

Ad

👀 Смотрите также

Параллельное выполнение для ИИ-агентов Claude достигнуто с помощью распределенного системного подхода.
Кейсы

Параллельное выполнение для ИИ-агентов Claude достигнуто с помощью распределенного системного подхода.

Разработчик успешно запустил 41 агента Claude AI параллельно без конфликтов и сэкономил 58% времени, рассматривая агентов как распределённую систему с чётко определёнными обязанностями, а не как групповой чат.

OpenClawRadar
Искусственный интеллект Claude используется как резервный мозг для Alexa для обработки неподдерживаемых команд.
Кейсы

Искусственный интеллект Claude используется как резервный мозг для Alexa для обработки неподдерживаемых команд.

Разработчик создал легковесный слой, в котором Claude AI обрабатывает каждую неудачную команду Alexa, работая с хинди, трансляцией CCTV и управлением неумными устройствами. Система использует WebSocket для управления телевизором, DLNA для приставок и преобразование RTSP→HLS для CCTV.

OpenClawRadar
Непрограммист создает SaaS-приложение с помощью Claude в качестве партнера по кодированию
Кейсы

Непрограммист создает SaaS-приложение с помощью Claude в качестве партнера по кодированию

Директор по операциям с данными без опыта в разработке программного обеспечения использовал Claude для создания и запуска полноценного SaaS-приложения под названием The Pit Preacher — помощника для барбекю на базе искусственного интеллекта с использованием Next.js 14, аутентификации Supabase, платежей Stripe и развертывания на Vercel.

OpenClawRadar
Создание персонального ИИ-агента с помощью Claude Code: Уроки за 6 месяцев работы с Wiz
Кейсы

Создание персонального ИИ-агента с помощью Claude Code: Уроки за 6 месяцев работы с Wiz

Разработчик делится своим опытом создания Wiz — персонального ИИ-агента на Claude Code, который обрабатывает утренние отчёты, вечерние сводки и сортировку входящих писем. В посте подробно описаны 9 ошибок, допущенных в процессе разработки, включая постановку излишне амбициозных целей и разрешение Claude генерировать основные инструкции без проверки.

OpenClawRadar