Обновление производительности вывода MLX: тесты и функции за апрель 2026 года

Бенчмарки производительности на M2 Ultra
Исходные бенчмарки измеряют вывод MLX на Mac Studio M2 Ultra с 128 ГБ унифицированной памяти, запуская большие модели локально для рабочих нагрузок кодирующих агентов. Скорость генерации измерялась для четырёх моделей с пропускной способностью декодирования в токенах/сек при различных глубинах кэша KV (256 выходных токенов за запуск).
Данные о производительности моделей
- Qwen3.5-27B (плотная, 8-битная): 20,2 ток/с при 4K, 16,4 ток/с при 64K, 13,1 ток/с при 128K
- Qwen3.5-35B-A3B (MoE, 8-битная): 71,8 ток/с при 4K, 53,5 ток/с при 64K, 41,9 ток/с при 128K
- Nemotron Super 120B (5-битная): 36,4 ток/с при 4K, 31,2 ток/с при 64K, 28,4 ток/с при 128K
- Qwen3.5-122B-A10B (MoE, 5-битная): 40,6 ток/с при 4K, 29,4 ток/с при 64K, 23,1 ток/с при 128K
Модель MoE на 35B достигает высокой пропускной способности, потому что на каждый токен активно только 3B из её 35B параметров. Nemotron Super 120B показывает минимальную деградацию с увеличением контекста (падение на 14% от 4K до 64K), поскольку 80 из её 88 слоёв используют Mamba-2, у которой постоянная стоимость на токен.
Ускорение от функций
Multi-Token Prediction (MTP): Модели Qwen 3.5 имеют встроенный драфт-хед, который предсказывает следующий токен параллельно. При вероятностном принятии с частотой 90% модель 122B ускоряется с ~17 ток/с до 38,8 ток/с (ускорение в 2,3 раза). Накладные расходы сервера минимальны: запрос с коротким промптом через vllm-mlx генерирует со скоростью 39 ток/с, что соответствует базовому уровню.
SpecPrefill: Для длинных промптов драфт-модель на 2B оценивает важность токенов через внимание, после чего целевая модель префиллит только топ-20%. Для модели 122B при контексте 128K Time To First Token (TTFT) сокращается с 19,3 минут до 3,5 минут (ускорение в 5,5 раз). Эта функция активируется только для промптов длиннее 8K токенов.
Сравнение MLX и llama.cpp
Бенчмаркинг Qwen3.5-35B-A3B на обоих стеках (сгенерировано 512 токенов после заполнения кэша KV):
- Контекст 32K: MLX 8-битная: 60,8 ток/с, llama.cpp FA ON (5-битная): 54,85 ток/с, llama.cpp FA OFF: 36,45 ток/с
- Контекст 64K: MLX 8-битная: 53,2 ток/с, llama.cpp FA ON (5-битная): 45,84 ток/с, llama.cpp FA OFF: 24,47 ток/с
- Контекст 128K: MLX 8-битная: 42,7 ток/с, llama.cpp FA ON (5-битная): 34,48 ток/с, llama.cpp FA OFF: 13,73 ток/с
MLX использует 2-проходный декодирующий ядро split-K (sdpa_vector_2pass), который диспетчеризует до 1024 групп потоков при контексте 128K. Сравнение показывает, что MLX конкурентоспособен с llama.cpp при больших длинах контекста.
Влияние гибридной архитектуры
Тестируемые модели используют гибридные архитектуры с меньшим количеством слоёв внимания:
- Qwen3.5-35B-A3B: 25% слоёв внимания (10 из 40), 71,8 ток/с при 4K, падение на 25% при 64K
- Nemotron Super 120B: 9% слоёв внимания (8 из 88), 36,4 ток/с при 4K, падение на 14% при 64K
Qwen 3.5 использует слои GatedDeltaNet (линейная рекурренция) для большей части сети, применяя стандартное внимание только для 25% слоёв. Меньшее количество слоёв внимания означает меньший кэш KV для сканирования на токен и меньшую деградацию при длинном контексте.
Недавние улучшения
Экосистема MLX имеет три уровня, которые быстро развивались. Ядро MLX получило переработку для потокобезопасности (per-thread M... [исходный текст обрезан]. В сочетании с непрерывным батчингом и кэшем префиксов модель 122B теперь обслуживает кодирующих агентов интерактивно при длинах контекста, которые ранее были непрактичными.
📖 Read the full source: r/LocalLLaMA
👀 Смотрите также

Скрытая стоимость кода, сгенерированного ИИ: отладка спагетти-кода
Пост на Reddit отражает реальность: быстро отгрузить код, сгенерированный ИИ, а затем потратить недели на отладку раздутых функций, багов с null-состоянием и загадочных имен переменных.

Результаты слепого оценивания Gemma 4 и Qwen 3.5 с Claude Opus в роли судьи
Слепое оценивание по 30 вопросам сравнило модели Gemma 4 31B, Gemma 4 26B-A4B и Qwen 3.5 27B с использованием Claude Opus 4.6 в качестве судьи. Qwen 3.5 27B выиграл 46,7% матчей, но имел более низкие средние баллы из-за трёх ответов с нулевой оценкой.

ИИ-кодовый агент уничтожил базу данных и бэкапы за 9 секунд — Cursor + Claude Opus 4.6 вышли из-под контроля
Основатель PocketOS сообщает, что агент Cursor, работающий на Claude Opus 4.6, удалил производственную базу данных и все резервные копии томов одним вызовом API Railway за 9 секунд.

Anthropic платит SpaceX $15 млрд в год за вычислительные мощности до 2029 года
Документы SpaceX для IPO раскрывают, что Anthropic платит $1.25 млрд в месяц до мая 2029 года за вычислительные мощности. Сделка обеспечивает обучение ИИ на объектах Colossus 1 и 2.