Тест Flash-MOE на M5 Max: 12.99 токенов в секунду с моделью Qwen3.5-397B.

Результаты производительности
Пользователь протестировал реализацию flash-moe на MacBook Pro M5 Max с 128 ГБ унифицированной памяти, запустив модель mlx-community/Qwen3.5-397B-A17B-4bit. Исходный тест Дэна Вудса на M3 Max с 48 ГБ оперативной памяти показал скорость 4,36 токена в секунду. На M5 Max базовая конфигурация с 4-битным квантованием и без cache-io-split достигла 12,48 ток/с. При оптимальной настройке --cache-io-split 4 производительность увеличилась до 12,99 ток/с, что в три раза быстрее исходного теста.
Анализ Cache-IO-Split
Пользователь провёл полное тестирование значений cache-io-split с использованием форка Anemll от flash-moe, который добавляет поддержку Metal 4 NAX для чипов M5+. Результаты показывают, что значения 2 и 3 снижают производительность, а значение 4 обеспечивает наилучшую оптимизацию:
- cache-io-split 1 (нет): 12,48 ток/с, 28,4 мс ввода-вывода эксперта на токен
- cache-io-split 2: 9,94 ток/с, 28,2 мс ввода-вывода эксперта на токен
- cache-io-split 3: 9,99 ток/с, 36,1 мс ввода-вывода эксперта на токен
- cache-io-split 4: 12,99 ток/с, 25,9 мс ввода-вывода эксперта на токен
- cache-io-split 5: 12,64 ток/с, 27,5 мс ввода-вывода эксперта на токен
- cache-io-split 8: 12,90 ток/с, 26,4 мс ввода-вывода эксперта на токен
Анализ предполагает, что значение 4 соответствует внутреннему параллелизму контроллера SSD M5 Max, тогда как более высокие значения добавляют накладные расходы на планирование. Рекомендуется использовать --cache-io-split 4 или вообще не использовать разделение, избегая значений 2 и 3.
Сравнение квантования
Тестирование 2-битного и 4-битного квантования показало, что 2-битное не даёт преимущества в скорости на M5 Max, поскольку скорость SSD делает меньшие файлы ненужными, а накладные расходы на деквантование сводят на нет любые выгоды. Качество значительно страдает при 2-битном квантовании:
- 4-битное: 12,99 ток/с, 3,64 перплексии на WikiText-2
- 2-битное: ~12,65 ток/с, 5,71 перплексии на WikiText-2 (на 57% хуже)
Вывод: используйте 4-битное квантование для лучшего качества без потери скорости.
Технические детали
Тест использовал форк Anemll, доступный по адресу https://github.com/Anemll/flash-moe. Устойчивая производительность оставалась стабильной на уровне 11,23 ток/с на 1000 токенов без деградации. Пользователь отметил, что фоновые процессы, использующие Metal/GPU, такие как LM Studio, могут значительно влиять на производительность и должны быть закрыты во время тестирования.
📖 Read the full source: r/LocalLLaMA
👀 Смотрите также

Open-Source Benchmark Runner для тестирования агентов OpenClaw на реальных рабочих процессах
Новый проект с открытым исходным кодом позволяет оценивать агентов OpenClaw на ваших собственных частных, реальных задачах, определенных в YAML, с поддержкой импорта фактических рабочих пространств агентов.

Навык "Открытый Коготь" для автоматизированного управления системами и усиления безопасности
Разработчик создал навык, который использует Claude Code для SSH-подключения к машинам OpenClaw и укрепления конфигураций, включая изоляцию, гигиену ОС и безопасность каналов, при этом поддерживая проектную папку с инструкциями по аудиту в файле CLAUDE.md.

Бесплатный калькулятор стоимости OpenClaw показывает расходы на конфигурацию перед выполнением.
Разработчик создал бесплатный инструмент с открытым исходным кодом для браузера, который рассчитывает стоимость конфигурации OpenClaw перед запуском, разбивая расходы по основной модели, цепочкам резервного копирования, расходу на проверки активности и режиму выставления счетов.

Расписания Claude Code: Планирование задач агента, как в Cron, с логическим обоснованием
Claude Code Routines позволяют запускать задачи агента по расписанию, не оставляя сессию открытой. Пользователь Reddit делится реальными примерами: ночной обзор коммитов, еженедельная проверка зависимостей, ежедневный анализ логов ошибок — с использованием ИИ для рассуждений вместо вывода сырых скриптов.