Тест Apple Silicon: Производительность Qwen3-VL на M3, M4 и M5 Max для классификации Vision LLM

✍️ OpenClawRadar📅 Опубликовано: 6 апреля 2026 г.🔗 Source
Тест Apple Silicon: Производительность Qwen3-VL на M3, M4 и M5 Max для классификации Vision LLM
Ad

Настройка тестирования и оборудование

Конвейер классификации визуальной LLM тестировался на технических чертежах (PDF-файлах с различным разрешением в мегапикселях) с использованием LM Studio с бэкендом MLX, включённой потоковой передачей, одинаковым тестовым набором из 53 файлов и одинаковым промптом. Задача включает классификацию, где модель анализирует изображение и возвращает короткий структурированный JSON-ответ (~300-400 токенов), что делает вывод преимущественно предварительно заполненным с минимальной генерацией токенов.

Протестированное оборудование:

  • M3 Max: 40 GPU ядер, 48 ГБ ОЗУ, пропускная способность памяти 400 ГБ/с
  • M4 Max Studio: 40 GPU ядер, 64 ГБ ОЗУ, пропускная способность памяти 546 ГБ/с
  • M5 Max: 40 GPU ядер, 64 ГБ ОЗУ, пропускная способность памяти 614 ГБ/с

Протестированные модели

  • Qwen3-VL 8B: 8B параметров, 4-битная MLX квантование, ~5.8 ГБ на диске
  • Qwen3.5 9B: 9B параметров (плотная, гибридная архитектура внимания), 4-битная MLX квантование, ~6.2 ГБ на диске
  • Qwen3-VL 32B: 32B параметров, 4-битная MLX квантование, ~18 ГБ на диске

Результаты для 8B модели

Общее время на изображение для Qwen3-VL 8B (4-бит):

  • 4 МП: M3 Max 48GB: 16.5с, M4 Studio 64GB: 15.8с, M5 Max 64GB: 9.0с (M5 на 83% быстрее M3)
  • 5 МП: M3 Max: 20.3с, M4 Studio: 19.8с, M5 Max: 11.5с (на 77% быстрее)
  • 6 МП: M3 Max: 24.1с, M4 Studio: 24.4с, M5 Max: 14.0с (на 72% быстрее)
  • 7.5 МП: M4 Studio: 32.7с, M5 Max: 20.3с

M3 Max и M4 Studio практически идентичны на 8B модели, с общим временем вывода в пределах 3-5%, несмотря на то что у M4 на 37% выше пропускная способность памяти. M5 Max примерно на 75-83% быстрее обоих.

Ad

Почему M3 и M4 имеют схожую скорость

Предварительное заполнение (обработка промпта) масштабируется с вычислительными ядрами GPU, а не с пропускной способностью памяти. Оба чипа имеют 40 GPU ядер, поэтому скорость предварительного заполнения идентична. Для визуальных моделей предварительное заполнение доминирует: TTFT (время до первого токена) составляет 70-85% от общего времени вывода, потому что визуальный энкодер выполняет тяжёлую вычислительную работу на изображение.

M4 действительно показывает своё преимущество в пропускной способности при генерации токенов: 76-80 T/с против 60-64 T/с у M3 (на 25% быстрее), что соответствует разрыву в пропускной способности на 37% (546 против 400 ГБ/с). Однако для задач классификации с короткими выводами (~300-400 токенов) генерация составляет всего ~15% от общего времени, поэтому 25% преимущество в скорости генерации превращается всего в 3-5% улучшения от начала до конца.

Результаты для 32B модели

Общее время на изображение для Qwen3-VL 32B (4-бит):

  • 2 МП: M3 Max 48GB: 47.6с, M4 Studio 64GB: 35.3с, M5 Max 64GB: 21.2с
  • 4 МП: M3 Max: 63.2с, M4 Studio: 50.0с, M5 Max: 27.4с
  • 5 МП: M3 Max: 72.9с, M4 Studio: 59.2с, M5 Max: 30.7с
  • 6 МП: M3 Max: 85.3с, M4 Studio: 78.0с, M5 Max: 35.6с

Для более длительных задач генерации, таких как суммаризация, описание или генерация кода, преимущество M4 в пропускной способности будет иметь большее значение, чем в этой рабочей нагрузке классификации.

📖 Read the full source: r/LocalLLaMA

Ad

👀 Смотрите также

Agora-1: Многопользовательская модель мира с открытым исходным кодом для симуляции в реальном времени
Новости

Agora-1: Многопользовательская модель мира с открытым исходным кодом для симуляции в реальном времени

Odyssey выпускает Agora-1 — мировую модель, которая позволяет до четырём агентам (человек или ИИ) совместно использовать симуляцию в реальном времени, используя GoldenEye в качестве тестовой среды.

OpenClawRadar
Обновление OpenClaw v3.22 вызывает проблемы с панелью управления и WhatsApp
Новости

Обновление OpenClaw v3.22 вызывает проблемы с панелью управления и WhatsApp

В OpenClaw v3.22 обнаружены проблемы с функциональностью панели управления и интеграцией WhatsApp, о чём свидетельствуют два отчёта на GitHub (#52808 и #52813). Пользователям рекомендуется не обновляться до этой версии.

OpenClawRadar
Исследование Anthropic о векторах эмоций показывает, что лесть и любовь имеют одинаковый механизм.
Новости

Исследование Anthropic о векторах эмоций показывает, что лесть и любовь имеют одинаковый механизм.

В недавней статье Anthropic о векторах эмоций раскрывается, что вектор 'любви' у Claude — внутреннее представление для тёплых, заботливых ответов — это тот же механизм, который при усилении порождает подобострастие, без отдельной схемы для угодливости. Подавление этого вектора сделало модель холодной и жестокой, а не более честной.

OpenClawRadar
Синтетическое общество: AI-агенты строят виртуальные жизни на Moltbook
Новости

Синтетическое общество: AI-агенты строят виртуальные жизни на Moltbook

r/moltbot community