Сравнение производительности M5 Max и M3 Max при инференсе моделей Qwen на oMLX

Пользователь Reddit /u/onil_gova провёл бенчмарки инференса, сравнивая 16-дюймовые MacBook Pro с процессорами M5 Max и M3 Max, оба оснащённые 40 GPU-ядрами и 128 ГБ унифицированной памяти. Тесты использовали oMLX v0.2.23 и три модели Qwen 3.5: 122B-A10B MoE, 35B-A3B MoE и 27B dense.
Результаты бенчмарков
При pp1024/tg128 (длина обработки промпта 1024, длина генерации токенов 128) M5 Max показал значительное увеличение скорости:
- 35B-A3B MoE: 134.5 против 80.3 tg tok/s (в 1.7 раза быстрее)
- 122B-A10B MoE: 65.3 против 46.1 tg tok/s (в 1.4 раза быстрее)
- 27B dense: 32.8 против 23.0 tg tok/s (в 1.4 раза быстрее)
Разрыв в производительности увеличивается с более длинными контекстами. При длине контекста 65K модель 27B dense показала 6.8 tg tok/s на M3 Max против 19.6 tg tok/s на M5 Max (разница в 2.9 раза).
Производительность префилла и батчинга
Преимущества в префилле были ещё больше, достигая до 4 раз более высокой скорости на M5 Max при длинных контекстах, что объясняется наличием GPU Neural Accelerators в M5 Max.
Производительность батчинга показала важные различия для агентных рабочих нагрузок:
- M5 Max масштабировался до 2.54x пропускной способности при 4x размере батча на модели 35B-A3B
- Батчинг на M3 Max на плотных моделях приводил к снижению производительности (0.80x при 2x батче на модели 122B)
Разница в пропускной способности памяти (614 ГБ/с у M5 Max против 400 ГБ/с у M3 Max) значительна для многошаговых агентных циклов или параллельных вызовов инструментов.
Инсайты об эффективности MoE
Бенчмарки показали, что модель 122B (с 10B активными параметрами) генерирует быстрее, чем плотная модель 27B на обоих компьютерах. Это демонстрирует, что скорость инференса определяет количество активных параметров, а не общий размер модели.
Полная интерактивная разбивка со всеми графиками и данными доступна по адресу: https://claude.ai/public/artifacts/c9fba245-e734-4b3b-be44-a6cabdec6f8f
📖 Read the full source: r/LocalLLaMA
👀 Смотрите также

От подсказок к проектированию спецификаций: переход к архитектуре «Планировщик-Исполнитель»
Развитие ИИ смещается от простого чатового взаимодействия к архитектуре планировщик-исполнитель, где люди выступают в роли инженеров спецификаций. Это требует определения строгих критериев приемки, архитектуры ограничений и паттернов декомпозиции для автономных агентов ИИ.

Обсуждение политики вклада Debian в ИИ завершилось без решения.
Разработчики Debian обсуждали, принимать ли вклад, созданный с помощью ИИ, но не пришли к формальному решению. Предлагаемое общее решение потребовало бы явного раскрытия информации и маркировки контента, сгенерированного ИИ.

Стелс-модель Healer Alpha от OpenRouter, по-видимому, является невыпущенным вариантом Qwen 3.5-Omni.
OpenRouter развернул бесплатную анонимную омни-модальную модель под названием Healer Alpha с контекстным окном 262 144 токена и мультимодальными возможностями. Криминалистический анализ предполагает, что это невыпущенный вариант Qwen 3.5-Omni от Alibaba.

Как подключить OpenClaw к Ollama удаленно
Полный гид по подключению OpenClaw к Ollama с другого ПК, исследующий взгляды сообщества и практические шаги для бесшовной интеграции.