Тест Flash-MOE на M5 Max: 12.99 токенов в секунду с моделью Qwen3.5-397B.

✍️ OpenClawRadar📅 Опубликовано: 31 марта 2026 г.🔗 Source
Тест Flash-MOE на M5 Max: 12.99 токенов в секунду с моделью Qwen3.5-397B.
Ad

Результаты производительности

Пользователь протестировал реализацию flash-moe на MacBook Pro M5 Max с 128 ГБ унифицированной памяти, запустив модель mlx-community/Qwen3.5-397B-A17B-4bit. Исходный тест Дэна Вудса на M3 Max с 48 ГБ оперативной памяти показал скорость 4,36 токена в секунду. На M5 Max базовая конфигурация с 4-битным квантованием и без cache-io-split достигла 12,48 ток/с. При оптимальной настройке --cache-io-split 4 производительность увеличилась до 12,99 ток/с, что в три раза быстрее исходного теста.

Анализ Cache-IO-Split

Пользователь провёл полное тестирование значений cache-io-split с использованием форка Anemll от flash-moe, который добавляет поддержку Metal 4 NAX для чипов M5+. Результаты показывают, что значения 2 и 3 снижают производительность, а значение 4 обеспечивает наилучшую оптимизацию:

  • cache-io-split 1 (нет): 12,48 ток/с, 28,4 мс ввода-вывода эксперта на токен
  • cache-io-split 2: 9,94 ток/с, 28,2 мс ввода-вывода эксперта на токен
  • cache-io-split 3: 9,99 ток/с, 36,1 мс ввода-вывода эксперта на токен
  • cache-io-split 4: 12,99 ток/с, 25,9 мс ввода-вывода эксперта на токен
  • cache-io-split 5: 12,64 ток/с, 27,5 мс ввода-вывода эксперта на токен
  • cache-io-split 8: 12,90 ток/с, 26,4 мс ввода-вывода эксперта на токен

Анализ предполагает, что значение 4 соответствует внутреннему параллелизму контроллера SSD M5 Max, тогда как более высокие значения добавляют накладные расходы на планирование. Рекомендуется использовать --cache-io-split 4 или вообще не использовать разделение, избегая значений 2 и 3.

Ad

Сравнение квантования

Тестирование 2-битного и 4-битного квантования показало, что 2-битное не даёт преимущества в скорости на M5 Max, поскольку скорость SSD делает меньшие файлы ненужными, а накладные расходы на деквантование сводят на нет любые выгоды. Качество значительно страдает при 2-битном квантовании:

  • 4-битное: 12,99 ток/с, 3,64 перплексии на WikiText-2
  • 2-битное: ~12,65 ток/с, 5,71 перплексии на WikiText-2 (на 57% хуже)

Вывод: используйте 4-битное квантование для лучшего качества без потери скорости.

Технические детали

Тест использовал форк Anemll, доступный по адресу https://github.com/Anemll/flash-moe. Устойчивая производительность оставалась стабильной на уровне 11,23 ток/с на 1000 токенов без деградации. Пользователь отметил, что фоновые процессы, использующие Metal/GPU, такие как LM Studio, могут значительно влиять на производительность и должны быть закрыты во время тестирования.

📖 Read the full source: r/LocalLLaMA

Ad

👀 Смотрите также

Синапс: Панель управления в реальном времени для визуализации сессий кодового агента Claude
Инструменты

Синапс: Панель управления в реальном времени для визуализации сессий кодового агента Claude

Synapse — это интерактивная панель управления в реальном времени, которая визуализирует сессии агента Claude Code в виде интерактивных графов узлов, показывая создание агентов, вызовы инструментов и подчинённых агентов. Для работы требуется Node.js и Claude, установка выполняется через npm, а система предлагает несколько режимов анализа и функцию удалённого подтверждения.

OpenClawRadar
🦀
Инструменты

AIttache: MCP-сервер только для чтения, который не может уничтожить вашу продукцию

AIttache — это MCP-сервер с 25+ коннекторами только для чтения (терминал, серверы, погода, Steam), который физически не может ничего изменить — создан для предоставления LLM контекста логов без автономии.

OpenClawRadar
AgentRoom: Десктопное приложение визуализирует ИИ-агентов для программирования в виде пиксельных персонажей с возможностью поиска сессий.
Инструменты

AgentRoom: Десктопное приложение визуализирует ИИ-агентов для программирования в виде пиксельных персонажей с возможностью поиска сессий.

AgentRoom — это десктопное приложение, которое превращает сессии Claude Code, Codex и Gemini в анимированных пиксельных персонажей в виртуальном офисе, с полнотекстовым семантическим поиском по всем сессиям. Репозиторий включает автономный навык Claude Code для поиска прошлых сессий из любого диалога.

OpenClawRadar
Инструмент мониторинга Claude Code передает логи сервера разработки в ИИ-автоисправления
Инструменты

Инструмент мониторинга Claude Code передает логи сервера разработки в ИИ-автоисправления

Инструмент Monitor в Claude Code позволяет запускать dev-сервер в фоне, отслеживать логи с умными grep-фильтрами и автоматически обнаруживать ошибки, писать исправления и коммитить их — пока вы тестируете интерфейс.

OpenClawRadar