Запуск Qwen3.5-122B-A10B-MINT-MLX на M5 Pro: 39,58 токенов/сек

Производительность локальных языковых моделей на Apple Silicon

Пользователь Reddit поделился своим опытом запуска модели Qwen3.5-122B-A10B-MINT-MLX локально на M5 Pro с 64 ГБ ОЗУ. Эта настройка демонстрирует, что большие языковые модели могут эффективно работать на потребительском оборудовании при правильной конфигурации.

Детали конфигурации

Пользователь добился плавной работы с помощью специальных терминальных команд для выделения видеопамяти:

sysctl iogpu.unified_memory_limit_percentage
sudo sysctl iogpu.wired_limit_mb=61440

В LM Studio они установили размер контекстного окна в 16384 токена. При такой конфигурации система сохраняла стабильную производительность во время работы Safari с несколькими вкладками, Messages и Activity Monitor одновременно.

Бенчмарки производительности

Модель Qwen3.5-122B-A10B-MINT-MLX показала следующие результаты:

Время до первого токена: 0,86 секунды
Скорость генерации токенов: 39,58 токенов/секунду

Пользователь отметил, что модель «правильно решила кучу загадок и немного поработала над кодом» без каких-либо нареканий на 3-битную MINT-квантозацию. Единственная проблема возникла, когда контекстное окно заполнилось при использовании около 59 ГБ видеопамяти, что привело к зависанию системы.

Сравнение с другими моделями

Пользователь также протестировал модель «Qwen3.5 40B Claude 4.6 Opus Deckard Heretic Uncensored Thinking Mxfp8», которая оказалась точнее 122B-модели, но значительно медленнее:

Скорость генерации токенов: 6,93 токена/секунду
Обработка промптов оставалась быстрой, несмотря на медленную генерацию

Это демонстрирует компромисс между размером модели, квантозацией и скоростью вывода, с которым сталкиваются разработчики при выборе конфигураций локальных языковых моделей.

📖 Read the full source: r/LocalLLaMA

Qwen3.5-122B-A10B-MINT-MLX работает плавно на M5 Pro с 64 ГБ оперативной памяти.

Производительность локальных языковых моделей на Apple Silicon

Детали конфигурации

Бенчмарки производительности

Сравнение с другими моделями

👀 Смотрите также

Claude Code Opus выдает ошибку ограничения частоты запросов, несмотря на наличие доступной недельной квоты.

Зависимость от ИИ: почему чрезмерное использование LLM может подорвать базовые навыки

Антропный Клод проводит 80 тысяч структурированных интервью в качестве альтернативы опросам.

OpenClaw 2026.4.29 нарушает настройки: скачки ЦП, ограничения инструментов и исправления