M5 Max vs M3 Max: сравнение инференса Qwen на oMLX

Пользователь Reddit /u/onil_gova провёл бенчмарки инференса, сравнивая 16-дюймовые MacBook Pro с процессорами M5 Max и M3 Max, оба оснащённые 40 GPU-ядрами и 128 ГБ унифицированной памяти. Тесты использовали oMLX v0.2.23 и три модели Qwen 3.5: 122B-A10B MoE, 35B-A3B MoE и 27B dense.

Результаты бенчмарков

При pp1024/tg128 (длина обработки промпта 1024, длина генерации токенов 128) M5 Max показал значительное увеличение скорости:

35B-A3B MoE: 134.5 против 80.3 tg tok/s (в 1.7 раза быстрее)
122B-A10B MoE: 65.3 против 46.1 tg tok/s (в 1.4 раза быстрее)
27B dense: 32.8 против 23.0 tg tok/s (в 1.4 раза быстрее)

Разрыв в производительности увеличивается с более длинными контекстами. При длине контекста 65K модель 27B dense показала 6.8 tg tok/s на M3 Max против 19.6 tg tok/s на M5 Max (разница в 2.9 раза).

Производительность префилла и батчинга

Преимущества в префилле были ещё больше, достигая до 4 раз более высокой скорости на M5 Max при длинных контекстах, что объясняется наличием GPU Neural Accelerators в M5 Max.

Производительность батчинга показала важные различия для агентных рабочих нагрузок:

M5 Max масштабировался до 2.54x пропускной способности при 4x размере батча на модели 35B-A3B
Батчинг на M3 Max на плотных моделях приводил к снижению производительности (0.80x при 2x батче на модели 122B)

Разница в пропускной способности памяти (614 ГБ/с у M5 Max против 400 ГБ/с у M3 Max) значительна для многошаговых агентных циклов или параллельных вызовов инструментов.

Инсайты об эффективности MoE

Бенчмарки показали, что модель 122B (с 10B активными параметрами) генерирует быстрее, чем плотная модель 27B на обоих компьютерах. Это демонстрирует, что скорость инференса определяет количество активных параметров, а не общий размер модели.

Полная интерактивная разбивка со всеми графиками и данными доступна по адресу: https://claude.ai/public/artifacts/c9fba245-e734-4b3b-be44-a6cabdec6f8f

📖 Read the full source: r/LocalLLaMA

Сравнение производительности M5 Max и M3 Max при инференсе моделей Qwen на oMLX

Результаты бенчмарков

Производительность префилла и батчинга

Инсайты об эффективности MoE

👀 Смотрите также

OpenClaw Client добавляет отслеживание затрат и лимиты расходов на агента

Сравнение затрат на API для LLM в 2026 году: самостоятельное размещение и облачные провайдеры

Anthropic откладывает изменения лимитов скорости API Claude Code

Разработка команды агентов: как Google Antigravity структурирует субагентов для автономной генерации кода