Результаты тестирования: модели Qwen3.5 на Apple Silicon и AMD GPU с ROCm и Vulkan

Аппаратная и программная настройка
Бенчмарк сравнивал три системы: MacBook Pro с Apple M5 Max (48GB унифицированной памяти), Mac Studio с Apple M1 Max (64GB унифицированной памяти) и GPU-сервер на Fedora 43 с процессором Intel Core Ultra 7 265K и тремя GPU AMD: Radeon Pro W7900 (48GB, RDNA 3), Radeon AI PRO R9700 (32GB, RDNA 4) и Radeon Pro W6800 (32GB, RDNA 2). Материнская плата обеспечивала электрические соединения x8/x8/x4, причем W6800 находился в слоте x4, подключенном через чипсет, что создавало узкое место из-за связи DMI.
Движки вывода и модели
Системы Apple использовали mlx-lm (версии 0.31.1 и 0.31.0). Сервер Fedora работал на llama.cpp с обеими сборками: HIP/ROCm (b5065) и AMDVLK Vulkan (b5065). Версия ROCm была 7.2, версия AMDVLK — 2025.Q2.1. Все запуски на Fedora использовали один GPU, за исключением модели 122B, которая использовала W7900 + R9700 с параметром --split-mode layer.
Тестируемые модели: Qwen3.5-35B-A3B MoE (3B активных параметров, mlx-community 4-bit или unsloth Q4_K_M), Qwen3.5-27B плотная (27B параметров, mlx-community 4-bit или unsloth Q4_K_M) и Qwen3.5-122B-A10B MoE (10B активных параметров, unsloth Q3_K_XL).
Методология бенчмарка
Бенчмарк отражал варианты использования анализа данных фармаконадзора: написание скриптов для извлечения данных, рассуждения о клинических данных, генерация регуляторных нарративов и структурированное извлечение данных из клинических текстов. Промпты были предметно-ориентированными, а не общими бенчмарками для LLM.
Стандартный бенчмарк использовал контекст 8K с 7 промптами: 2 теста на обработку промптов (короткий ~27 токенов и длинный ~2.9K токенов на входе с минимальным выводом для изоляции скорости предзаполнения) и 5 задач генерации (короткое кодирование, среднее кодирование, математические рассуждения, написание регуляторного нарратива по безопасности, структурированное извлечение нежелательных явлений). Одиночный пользователь, одиночный запрос, температура 0.3, /no_think для отключения режима мышления, без кэширования промптов между запросами.
Бенчмарк масштабирования контекста использовал ту же модель и GPU с постепенно увеличивающимися промптами (от 512 до 16K+ токенов), состоящими из синтетических списков нежелательных явлений, с выводом только 64 токена максимум, чтобы изолировать, как обработка промпта и генерация масштабируются с размером ввода.
Ключевые выводы
Бенчмарк выявил интересные результаты сравнения ROCm и AMDVLK Vulkan, включая тесты масштабирования контекста, показывающие, когда каждый бэкенд работает лучше всего. В источнике отмечается, что большинство доступных сравнений не помогают принять решение между конфигурациями, такими как ноутбук M5 Max и рабочая станция W7900, или стоит ли ROCm хлопот с настройкой по сравнению с Vulkan.
📖 Read the full source: r/LocalLLaMA
👀 Смотрите также

Исследование Anthropic выявило снижение когнитивных способностей при работе с ИИ-ассистентами.
Глобальное исследование Anthropic с участием 80 000 пользователей показало, что академические пользователи сообщают о темпах когнитивной деградации в 2,5 раза выше среднего при использовании ИИ-инструментов, таких как Claude и Cursor. Источник определяет проблему как устранение пользователями «фазы переваривания» работы.

Бенчмарк SPLICE показывает, что визуально-языковые модели испытывают трудности с временными рассуждениями и полагаются на языковые пресуппозиции.
Исследование, представленное на EMNLP 2025, показывает, что модели «визуальный язык» плохо справляются с задачей упорядочивания видео, в которой люди преуспевают. Модели, такие как Gemini 2.0 Flash, достигают точности 51% по сравнению с человеческим показателем в 85%. Модели часто полагаются на визуальные «ярлыки» и текстовые описания, а не на истинное понимание визуальной информации.

Токенмаксинг — это новый секундомер: почему ваша ИИ-политика должна быть последовательной
Брайан Микер выступает против метрик тщеславия, таких как tokenmaxxing, и делится четырехпунктовой политикой своей команды в области ИИ: без принуждения, понимать сгенерированный код, уметь работать без ИИ-инструментов, заботиться о коллегах и клиентах.

Британская энциклопедия подала иск против OpenAI из-за данных для обучения ИИ
Encyclopedia Britannica подала иск против OpenAI, обвиняя компанию в нарушении авторских прав в связи с использованием данных для обучения ИИ. Об этом сообщило агентство Reuters 16 марта 2026 года, что вызвало обсуждение на Hacker News.