Автоисследование позволяет достичь скорости 20.34 токен/с на Qwen3.5-397B на M5 Max с использованием потоковой передачи с SSD.

✍️ OpenClawRadar📅 Опубликовано: 30 марта 2026 г.🔗 Source
Автоисследование позволяет достичь скорости 20.34 токен/с на Qwen3.5-397B на M5 Max с использованием потоковой передачи с SSD.
Ad

Аппаратная конфигурация и модель

Эксперимент проводился на MacBook Pro M5 Max с 128 ГБ унифицированной памяти и 40-ядерным GPU. Использовалась модель Qwen3.5-397B-A17B с экспертами Q3-GGUF (смешанная точность Unsloth IQ3_XXS/IQ4_XS), эмбеддингом Q8_0 и LM-головой Q6_K. Модель занимает 209 ГБ на диске — в 4 раза больше доступной оперативной памяти — что требует потоковой передачи всех данных с SSD.

Результаты производительности

Скорость декодирования достигла 20,34 токенов/сек при предзаполнении 5,52 токенов/сек. Это представляет собой улучшение в 2 раза по сравнению с исходной точкой M5 Max в 10,61 токенов/сек и улучшение в 4,67 раза по сравнению с исходным базовым показателем Дэна Вудса в 4,36 токенов/сек на аппаратном обеспечении M3 Max.

Методология

Исследователь использовал методологию цикла автоисследований из проекта flash-moe Дэна Вудса, запуская его с помощью Claude Code (Anthropic) для систематического выполнения и оценки 36 экспериментов. Каждый эксперимент регистрировался с результатами перед продолжением, с автоматическим контролем качества через пороги перплексии для выявления регрессий. Коллаборация человека и ИИ включала руководство исследователя и принятие научных решений, в то время как Claude Code реализовывал и тестировал производительность по указанию.

Техническая основа

Работа основана на оригинальной статье flash-moe Дэна Вудса и форке Anemll, который представляет собой чистый движок вывода на C/Metal для запуска Qwen3.5-397B через потоковую передачу с SSD на Apple Silicon. Форк Anemll добавил поддержку экспертов Q3-GGUF, что было важно для этих результатов, а исследователь добавил дополнительные оптимизации на уровне Metal.

Ad

Эффективные оптимизации

  • 16 потоков ввода-вывода + cache-io-split=4: Вместо чтения каждого файла весов экспертов как одного последовательного блока, разделение на 4 параллельных выровненных по страницам чтения, обращающихся к разным каналам SSD одновременно. +1,5 токенов/сек
  • Временное предсказание экспертов: Обнаружена 27% корреляция маршрутизации между токенами, перекрытие чтения с SSD с вычислениями на GPU. +4,3 токенов/сек
  • Эксперты Q3-GGUF (Unsloth IQ3_XXS/IQ4_XS): Меньший объем данных с Q3 как оптимальным вариантом. Лучшая перплексия, чем у 4-битного квантования (5,58 против 5,62), при этом на 23% меньше. +2,3 токенов/сек
  • CMD2 предварительное кодирование: Устранение задержки в 30 мкс на каждый слой при отправке. +0,44 токенов/сек
  • Объединенное ядро проекции Q/K/V: Чтение входного вектора один раз вместо трех (оптимизация Metal GPU). +0,76 токенов/сек
  • Расширение CMD2 предварительного кодирования на все слои полного внимания: +0,47 токенов/сек

Примечание: Прирост не является полностью аддитивным, поскольку некоторые оптимизации взаимодействуют друг с другом.

Неудачные подходы

Исследование имело уровень отбраковки 78%. Неудачные подходы включали: 1-битное квантование QJL (перплексия 5647, катастрофическая), троичное 2-битное с 84% разреженностью весов (модель разрушилась), маршрутизацию экспертов K=3 (качество разрушилось), межслойное предсказание (0% точности), выгрузку NAX (накладные расходы на заполнение плиток свели на нет прирост), и 2-битных экспертов MLX (быстрее изолированно, но хуже перплексия и отсутствие преимущества в скорости после применения временного предсказания к Q3).

Ограничения и будущая работа

Исследование ограничено одной аппаратной платформой, поэтому результаты могут не обобщаться. Квантование Q3 в таком масштабе заметно ухудшается при генерации длинных текстов, создавая артефакты в длинных ответах, несмотря на приемлемое качество для коротких задач. Качество оценивалось только через перплексию, а не стандартизированные тесты, такие как MMLU или GPQA. Это исследовательский проект по скорости, а не заявление о производственном качестве.

Один удивительный вывод: Apple Neural Engine (ANE) был полностью неактивен во время вывода, потребляя 0 Вт, несмотря на предложение 38 TOPS вычислений. Проблема в том, что вывод MoE требует динамического решения, каких экспертов активировать, в то время как ANE работает только со статическими предварительно скомпилированными графами. Возможность может быть в пакетном предзаполнении.

📖 Read the full source: r/LocalLLaMA

Ad

👀 Смотрите также

Еженедельный обзор мультимодального ИИ: Holotron-12B, Nemotron Omni, GlyphPrinter и другие
Новости

Еженедельный обзор мультимодального ИИ: Holotron-12B, Nemotron Omni, GlyphPrinter и другие

В этой неделе среди основных достижений в области мультимодального ИИ можно выделить Holotron-12B для задач компьютерного использования, модели NVIDIA Nemotron Omni, объединяющие язык, зрение и голос, GlyphPrinter для точного рендеринга текста при генерации изображений, а также несколько проектов с открытым исходным кодом для улучшения видео, 3D-сегментации и многоагентных систем.

OpenClawRadar
Два сотрудника Департамента внутренних дел ЮАР отстранены за галлюцинации ИИ в политическом документе
Новости

Два сотрудника Департамента внутренних дел ЮАР отстранены за галлюцинации ИИ в политическом документе

Два чиновника были отстранены после того, как в списке литературы пересмотренной Белой книги по гражданству, иммиграции и защите беженцев были обнаружены галлюцинации ИИ. Департамент внедрит проверки ИИ и пересмотрит все политические документы, начиная с ноября 2022 года.

OpenClawRadar
本地LLM基准测试:通过函数调用生成后端——GLM、Qwen、DeepSeek对比
Новости

本地LLM基准测试:通过函数调用生成后端——GLM、Qwen、DeepSeek对比

Строгий бенчмарк локальных и frontier LLM для генерации бэкенд-кода через вызов функций с оценочной рубрикой. Ключевые выводы: qwen3.5-35b-a3b соответствует gpt-5.4 в проектировании БД/API, а плотная Qwen 27B превосходит 397B MoE. Frontier модели исключены из-за стоимости.

OpenClawRadar
Выпущена модель Mistral Medium 3.5 128B: плотная модель с настраиваемым рассуждением и зрением
Новости

Выпущена модель Mistral Medium 3.5 128B: плотная модель с настраиваемым рассуждением и зрением

Mistral AI выпустила Mistral Medium 3.5 — плотную модель на 128B с контекстом 256k, настраиваемым уровнем рассуждений и возможностями распознавания изображений, под модифицированной лицензией MIT.

OpenClawRadar