Обновление производительности вывода MLX: тесты и функции за апрель 2026 года

✍️ OpenClawRadar📅 Опубликовано: 14 апреля 2026 г.🔗 Source

Бенчмарки производительности на M2 Ultra

Исходные бенчмарки измеряют вывод MLX на Mac Studio M2 Ultra с 128 ГБ унифицированной памяти, запуская большие модели локально для рабочих нагрузок кодирующих агентов. Скорость генерации измерялась для четырёх моделей с пропускной способностью декодирования в токенах/сек при различных глубинах кэша KV (256 выходных токенов за запуск).

Данные о производительности моделей

Qwen3.5-27B (плотная, 8-битная): 20,2 ток/с при 4K, 16,4 ток/с при 64K, 13,1 ток/с при 128K
Qwen3.5-35B-A3B (MoE, 8-битная): 71,8 ток/с при 4K, 53,5 ток/с при 64K, 41,9 ток/с при 128K
Nemotron Super 120B (5-битная): 36,4 ток/с при 4K, 31,2 ток/с при 64K, 28,4 ток/с при 128K
Qwen3.5-122B-A10B (MoE, 5-битная): 40,6 ток/с при 4K, 29,4 ток/с при 64K, 23,1 ток/с при 128K

Модель MoE на 35B достигает высокой пропускной способности, потому что на каждый токен активно только 3B из её 35B параметров. Nemotron Super 120B показывает минимальную деградацию с увеличением контекста (падение на 14% от 4K до 64K), поскольку 80 из её 88 слоёв используют Mamba-2, у которой постоянная стоимость на токен.

Ускорение от функций

Multi-Token Prediction (MTP): Модели Qwen 3.5 имеют встроенный драфт-хед, который предсказывает следующий токен параллельно. При вероятностном принятии с частотой 90% модель 122B ускоряется с ~17 ток/с до 38,8 ток/с (ускорение в 2,3 раза). Накладные расходы сервера минимальны: запрос с коротким промптом через vllm-mlx генерирует со скоростью 39 ток/с, что соответствует базовому уровню.

SpecPrefill: Для длинных промптов драфт-модель на 2B оценивает важность токенов через внимание, после чего целевая модель префиллит только топ-20%. Для модели 122B при контексте 128K Time To First Token (TTFT) сокращается с 19,3 минут до 3,5 минут (ускорение в 5,5 раз). Эта функция активируется только для промптов длиннее 8K токенов.

Сравнение MLX и llama.cpp

Бенчмаркинг Qwen3.5-35B-A3B на обоих стеках (сгенерировано 512 токенов после заполнения кэша KV):

Контекст 32K: MLX 8-битная: 60,8 ток/с, llama.cpp FA ON (5-битная): 54,85 ток/с, llama.cpp FA OFF: 36,45 ток/с
Контекст 64K: MLX 8-битная: 53,2 ток/с, llama.cpp FA ON (5-битная): 45,84 ток/с, llama.cpp FA OFF: 24,47 ток/с
Контекст 128K: MLX 8-битная: 42,7 ток/с, llama.cpp FA ON (5-битная): 34,48 ток/с, llama.cpp FA OFF: 13,73 ток/с

MLX использует 2-проходный декодирующий ядро split-K (sdpa_vector_2pass), который диспетчеризует до 1024 групп потоков при контексте 128K. Сравнение показывает, что MLX конкурентоспособен с llama.cpp при больших длинах контекста.

Влияние гибридной архитектуры

Тестируемые модели используют гибридные архитектуры с меньшим количеством слоёв внимания:

Qwen3.5-35B-A3B: 25% слоёв внимания (10 из 40), 71,8 ток/с при 4K, падение на 25% при 64K
Nemotron Super 120B: 9% слоёв внимания (8 из 88), 36,4 ток/с при 4K, падение на 14% при 64K

Qwen 3.5 использует слои GatedDeltaNet (линейная рекурренция) для большей части сети, применяя стандартное внимание только для 25% слоёв. Меньшее количество слоёв внимания означает меньший кэш KV для сканирования на токен и меньшую деградацию при длинном контексте.

Недавние улучшения

Экосистема MLX имеет три уровня, которые быстро развивались. Ядро MLX получило переработку для потокобезопасности (per-thread M... [исходный текст обрезан]. В сочетании с непрерывным батчингом и кэшем префиксов модель 122B теперь обслуживает кодирующих агентов интерактивно при длинах контекста, которые ранее были непрактичными.

📖 Read the full source: r/LocalLLaMA

👀 Смотрите также

Новости

Claude Code v2.1.172: Под-агенты теперь на 5 уровней вглубь, исправления для Bedrock Region и улучшение производительности

Claude Code v2.1.172 позволяет под-агентам создавать под-агентов глубиной до 5 уровней, исправляет определение региона Bedrock, добавляет поиск по плагинам и улучшает производительность в длинных диалогах.

11 июн. 2026 г., 00:15 UTC

OpenClawRadar

Новости

Claude Code добавляет голосовой режим для управления кодом без помощи рук.

Anthropic запускает голосовой режим для Claude Code, своего ИИ-помощника для программистов, позволяя разработчикам взаимодействовать с помощью голосовых команд. Функция сейчас доступна примерно 5% пользователей, а более широкий запуск запланирован на ближайшие недели.

7 мар. 2026 г., 16:45 UTC

OpenClawRadar

Новости

Процессоры AMD Ryzen AI с NPU получают поддержку LLM в Linux через Lemonade 10.0 и FastFlowLM

NPU AMD Ryzen AI теперь поддерживают запуск больших языковых моделей на Linux через сервер Lemonade 10.0 с рантаймом FastFlowLM, что требует ядра Linux 7.0 или бэкпортов драйвера AMDXDNA.

12 мар. 2026 г., 05:45 UTC

OpenClawRadar

Новости

Xiaomi открыла исходный код MiMo-V2.5-Pro: приближается к Claude Opus 4.6 по бенчмаркам кодинга

Xiaomi выпустил MiMo-V2.5-Pro — модель с открытым исходным кодом, которая набрала 233/233 на университетском проекте компилятора, самостоятельно создала видеоредактор и занимает место в 1% от Claude Opus 4.6 по бенчмаркам SWE-Bench и Terminal-Bench.

28 апр. 2026 г., 20:16 UTC

OpenClawRadar