Тест Apple Silicon: Производительность Qwen3-VL на M3, M4 и M5 Max для классификации Vision LLM

✍️ OpenClawRadar📅 Опубликовано: 6 апреля 2026 г.🔗 Source

Настройка тестирования и оборудование

Конвейер классификации визуальной LLM тестировался на технических чертежах (PDF-файлах с различным разрешением в мегапикселях) с использованием LM Studio с бэкендом MLX, включённой потоковой передачей, одинаковым тестовым набором из 53 файлов и одинаковым промптом. Задача включает классификацию, где модель анализирует изображение и возвращает короткий структурированный JSON-ответ (~300-400 токенов), что делает вывод преимущественно предварительно заполненным с минимальной генерацией токенов.

Протестированное оборудование:

M3 Max: 40 GPU ядер, 48 ГБ ОЗУ, пропускная способность памяти 400 ГБ/с
M4 Max Studio: 40 GPU ядер, 64 ГБ ОЗУ, пропускная способность памяти 546 ГБ/с
M5 Max: 40 GPU ядер, 64 ГБ ОЗУ, пропускная способность памяти 614 ГБ/с

Протестированные модели

Qwen3-VL 8B: 8B параметров, 4-битная MLX квантование, ~5.8 ГБ на диске
Qwen3.5 9B: 9B параметров (плотная, гибридная архитектура внимания), 4-битная MLX квантование, ~6.2 ГБ на диске
Qwen3-VL 32B: 32B параметров, 4-битная MLX квантование, ~18 ГБ на диске

Результаты для 8B модели

Общее время на изображение для Qwen3-VL 8B (4-бит):

4 МП: M3 Max 48GB: 16.5с, M4 Studio 64GB: 15.8с, M5 Max 64GB: 9.0с (M5 на 83% быстрее M3)
5 МП: M3 Max: 20.3с, M4 Studio: 19.8с, M5 Max: 11.5с (на 77% быстрее)
6 МП: M3 Max: 24.1с, M4 Studio: 24.4с, M5 Max: 14.0с (на 72% быстрее)
7.5 МП: M4 Studio: 32.7с, M5 Max: 20.3с

M3 Max и M4 Studio практически идентичны на 8B модели, с общим временем вывода в пределах 3-5%, несмотря на то что у M4 на 37% выше пропускная способность памяти. M5 Max примерно на 75-83% быстрее обоих.

Почему M3 и M4 имеют схожую скорость

Предварительное заполнение (обработка промпта) масштабируется с вычислительными ядрами GPU, а не с пропускной способностью памяти. Оба чипа имеют 40 GPU ядер, поэтому скорость предварительного заполнения идентична. Для визуальных моделей предварительное заполнение доминирует: TTFT (время до первого токена) составляет 70-85% от общего времени вывода, потому что визуальный энкодер выполняет тяжёлую вычислительную работу на изображение.

M4 действительно показывает своё преимущество в пропускной способности при генерации токенов: 76-80 T/с против 60-64 T/с у M3 (на 25% быстрее), что соответствует разрыву в пропускной способности на 37% (546 против 400 ГБ/с). Однако для задач классификации с короткими выводами (~300-400 токенов) генерация составляет всего ~15% от общего времени, поэтому 25% преимущество в скорости генерации превращается всего в 3-5% улучшения от начала до конца.

Результаты для 32B модели

Общее время на изображение для Qwen3-VL 32B (4-бит):

2 МП: M3 Max 48GB: 47.6с, M4 Studio 64GB: 35.3с, M5 Max 64GB: 21.2с
4 МП: M3 Max: 63.2с, M4 Studio: 50.0с, M5 Max: 27.4с
5 МП: M3 Max: 72.9с, M4 Studio: 59.2с, M5 Max: 30.7с
6 МП: M3 Max: 85.3с, M4 Studio: 78.0с, M5 Max: 35.6с

Для более длительных задач генерации, таких как суммаризация, описание или генерация кода, преимущество M4 в пропускной способности будет иметь большее значение, чем в этой рабочей нагрузке классификации.

📖 Read the full source: r/LocalLLaMA

👀 Смотрите также

Новости

Песочница для агентов: устойчивое выполнение и холодные старты

Запуск цикла агента вне песочницы изолирует учетные данные, позволяет приостанавливать песочницу и упрощает совместное использование несколькими пользователями, но требует решения проблем устойчивого выполнения и задержки холодного старта.

3 мая 2026 г., 02:15 UTC

OpenClawRadar

Новости

Microsoft отменяет лицензии Claude Code — ИИ-агенты слишком дороги для масштабирования

Microsoft отменяет большинство прямых лицензий Claude Code, переводя инженеров на GitHub Copilot CLI. Uber потратил бюджет на ИИ 2026 года за 4 месяца. Стоимость токенов на задачу может вырасти.

23 мая 2026 г., 12:16 UTC

OpenClawRadar

Новости

Экономика видео Sora AI: затраты OpenAI на вычисления составляют $65 при стоимости для пользователя в $20

По данным анализа приложения OpenAI Sora для генерации AI-видео, каждый подписчик за $20 в месяц, создающий 50 видео, обходится OpenAI примерно в $65 на вычисления. Чем больше пользователей взаимодействует с продуктом, тем быстрее он терял деньги.

6 апр. 2026 г., 01:45 UTC

OpenClawRadar

Новости

Anthropic приостанавливает изменение кредитов для Claude Code – Agent SDK остается по подписке

Anthropic приостанавливает перенос Agent SDK, claude -p и сторонних приложений на отдельный ежемесячный кредит. Использование продолжается в рамках существующих лимитов подписки.

16 июн. 2026 г., 00:20 UTC

OpenClawRadar