Тест Flash-MOE M5 Max: 12.99 токен/с с Qwen3.5-397B

Результаты производительности

Пользователь протестировал реализацию flash-moe на MacBook Pro M5 Max с 128 ГБ унифицированной памяти, запустив модель mlx-community/Qwen3.5-397B-A17B-4bit. Исходный тест Дэна Вудса на M3 Max с 48 ГБ оперативной памяти показал скорость 4,36 токена в секунду. На M5 Max базовая конфигурация с 4-битным квантованием и без cache-io-split достигла 12,48 ток/с. При оптимальной настройке --cache-io-split 4 производительность увеличилась до 12,99 ток/с, что в три раза быстрее исходного теста.

Анализ Cache-IO-Split

Пользователь провёл полное тестирование значений cache-io-split с использованием форка Anemll от flash-moe, который добавляет поддержку Metal 4 NAX для чипов M5+. Результаты показывают, что значения 2 и 3 снижают производительность, а значение 4 обеспечивает наилучшую оптимизацию:

cache-io-split 1 (нет): 12,48 ток/с, 28,4 мс ввода-вывода эксперта на токен
cache-io-split 2: 9,94 ток/с, 28,2 мс ввода-вывода эксперта на токен
cache-io-split 3: 9,99 ток/с, 36,1 мс ввода-вывода эксперта на токен
cache-io-split 4: 12,99 ток/с, 25,9 мс ввода-вывода эксперта на токен
cache-io-split 5: 12,64 ток/с, 27,5 мс ввода-вывода эксперта на токен
cache-io-split 8: 12,90 ток/с, 26,4 мс ввода-вывода эксперта на токен

Анализ предполагает, что значение 4 соответствует внутреннему параллелизму контроллера SSD M5 Max, тогда как более высокие значения добавляют накладные расходы на планирование. Рекомендуется использовать --cache-io-split 4 или вообще не использовать разделение, избегая значений 2 и 3.

Сравнение квантования

Тестирование 2-битного и 4-битного квантования показало, что 2-битное не даёт преимущества в скорости на M5 Max, поскольку скорость SSD делает меньшие файлы ненужными, а накладные расходы на деквантование сводят на нет любые выгоды. Качество значительно страдает при 2-битном квантовании:

4-битное: 12,99 ток/с, 3,64 перплексии на WikiText-2
2-битное: ~12,65 ток/с, 5,71 перплексии на WikiText-2 (на 57% хуже)

Вывод: используйте 4-битное квантование для лучшего качества без потери скорости.

Технические детали

Тест использовал форк Anemll, доступный по адресу https://github.com/Anemll/flash-moe. Устойчивая производительность оставалась стабильной на уровне 11,23 ток/с на 1000 токенов без деградации. Пользователь отметил, что фоновые процессы, использующие Metal/GPU, такие как LM Studio, могут значительно влиять на производительность и должны быть закрыты во время тестирования.

📖 Read the full source: r/LocalLLaMA

Тест Flash-MOE на M5 Max: 12.99 токенов в секунду с моделью Qwen3.5-397B.

Результаты производительности

Анализ Cache-IO-Split

Сравнение квантования

Технические детали

👀 Смотрите также

TradesMCP: Открытый MCP-сервер для проверки лицензий подрядчиков и данных о строительстве

Функция Claw Voice добавляет поддержку API 11Labs с интеграцией CarPlay

Тихий сбой Клода: отказ слоя действий при столкновении ИИ-агентов с бизнес-сайтами

Google выпускает Sashiko: агент для проверки кода с помощью ИИ для патчей ядра Linux.