Qwen3.5: Бенчмарк на Apple Silicon vs AMD GPU с ROCm и Vulkan

Аппаратная и программная настройка

Бенчмарк сравнивал три системы: MacBook Pro с Apple M5 Max (48GB унифицированной памяти), Mac Studio с Apple M1 Max (64GB унифицированной памяти) и GPU-сервер на Fedora 43 с процессором Intel Core Ultra 7 265K и тремя GPU AMD: Radeon Pro W7900 (48GB, RDNA 3), Radeon AI PRO R9700 (32GB, RDNA 4) и Radeon Pro W6800 (32GB, RDNA 2). Материнская плата обеспечивала электрические соединения x8/x8/x4, причем W6800 находился в слоте x4, подключенном через чипсет, что создавало узкое место из-за связи DMI.

Движки вывода и модели

Системы Apple использовали mlx-lm (версии 0.31.1 и 0.31.0). Сервер Fedora работал на llama.cpp с обеими сборками: HIP/ROCm (b5065) и AMDVLK Vulkan (b5065). Версия ROCm была 7.2, версия AMDVLK — 2025.Q2.1. Все запуски на Fedora использовали один GPU, за исключением модели 122B, которая использовала W7900 + R9700 с параметром --split-mode layer.

Тестируемые модели: Qwen3.5-35B-A3B MoE (3B активных параметров, mlx-community 4-bit или unsloth Q4_K_M), Qwen3.5-27B плотная (27B параметров, mlx-community 4-bit или unsloth Q4_K_M) и Qwen3.5-122B-A10B MoE (10B активных параметров, unsloth Q3_K_XL).

Методология бенчмарка

Бенчмарк отражал варианты использования анализа данных фармаконадзора: написание скриптов для извлечения данных, рассуждения о клинических данных, генерация регуляторных нарративов и структурированное извлечение данных из клинических текстов. Промпты были предметно-ориентированными, а не общими бенчмарками для LLM.

Стандартный бенчмарк использовал контекст 8K с 7 промптами: 2 теста на обработку промптов (короткий ~27 токенов и длинный ~2.9K токенов на входе с минимальным выводом для изоляции скорости предзаполнения) и 5 задач генерации (короткое кодирование, среднее кодирование, математические рассуждения, написание регуляторного нарратива по безопасности, структурированное извлечение нежелательных явлений). Одиночный пользователь, одиночный запрос, температура 0.3, /no_think для отключения режима мышления, без кэширования промптов между запросами.

Бенчмарк масштабирования контекста использовал ту же модель и GPU с постепенно увеличивающимися промптами (от 512 до 16K+ токенов), состоящими из синтетических списков нежелательных явлений, с выводом только 64 токена максимум, чтобы изолировать, как обработка промпта и генерация масштабируются с размером ввода.

Ключевые выводы

Бенчмарк выявил интересные результаты сравнения ROCm и AMDVLK Vulkan, включая тесты масштабирования контекста, показывающие, когда каждый бэкенд работает лучше всего. В источнике отмечается, что большинство доступных сравнений не помогают принять решение между конфигурациями, такими как ноутбук M5 Max и рабочая станция W7900, или стоит ли ROCm хлопот с настройкой по сравнению с Vulkan.

📖 Read the full source: r/LocalLLaMA

Результаты тестирования: модели Qwen3.5 на Apple Silicon и AMD GPU с ROCm и Vulkan

Аппаратная и программная настройка

Движки вывода и модели

Методология бенчмарка

Ключевые выводы

👀 Смотрите также

Claude Cowork для Windows ARM64 выпущен с проверкой совместимости

Обновление OpenClaw 2026.3.22: Полезные функции, но три критические проблемы требуют осторожности

OpenClaw 2026.3.24: Конфигурация моста удалена, экономия токенов Heartbeat, обнаружение петель.

4 месяца до $950 MRR: создание MCP-сервера для Claude Code Intel