Qwen3.5-397B MoE: Запуск на 14 ГБ ОЗУ с Paged MoE

Пост на Reddit от пользователя u/ur_dad_matt (через Claude) демонстрирует пользовательский движок Paged MoE, который запускает Qwen3.5-397B-A17B (209GB на диске, 512 экспертов, top-10 маршрутизация) на M1 Ultra Mac Studio с 64GB памяти, используя всего 14GB пиковой RAM и достигая скорости вывода 1,59 ток/с. Модель слишком велика для наивной загрузки; движок держит в оперативной памяти только K=20 экспертов, лениво подгружая остальные с SSD по запросу маршрутизатора и вытесняя при нехватке кэша. Вычисления используют Float16 (быстрее, чем ternary на MPS), родной Apple Silicon, на базе MLX.

Результаты бенчмарков из прогона 5 промптов на M1 Ultra 64GB:

Скорость: 1,59 ток/с (среднее по 5 связным генерациям, K=20)
Пиковый RSS кэша (генерация): 7,91 GB
Общий пиковый RSS: 14,04 GB
Связные выходы: 5/5

Оптимальная конфигурация движка: K_override=20, cache_gb=8.0, OUTLIER_MMAP_EXPERTS=0, lazy_load=True. Первые попытки со всеми экспертами на диске приводили к сбоям выделения буфера команд, пока не был настроен размер кэша.

Автор утверждает, что бенчмарки с «сырыми» оценками не учитывают суть для локальных LLM на оборудовании с 64GB; ключевая метрика — MMLU на GB RAM. При скорости 1,59 ток/с модель работает в «темпе размышления», а не в темпе чата, демонстрируя верхнюю границу соотношения модели к памяти.

Скорости для меньших квантованных моделей на том же оборудовании (MLX-4 бит):

4B Nano: 71,7 ток/с
9B Lite: 53,4 ток/с
26B-A4B Quick: 14,6 ток/с
27B Core: 40,7 ток/с (MMLU 0,851 n=14042 σ=0,003, HumanEval 0,866 n=164 σ=0,027)
35B-A3B Vision: 64,1 ток/с
397B Plus: 1,59 ток/с

Среда выполнения построена на Tauri + Rust + MLX для macOS. Бесплатные уровни (Nano и Lite) доступны навсегда на outlier.host. Видеодемонстрация включена в пост на Reddit.

📖 Read the full source: r/LocalLLaMA

Qwen3.5-397B MoE работает на 14 ГБ ОЗУ с помощью постраничной загрузки экспертов на M1 Ultra

👀 Смотрите также

Структура рабочего пространства OpenClaw и подход к саморазвитию от давнего пользователя

Оценка безопасности навыков агента: ключевые моменты перед установкой

Изменение стандартного системного запроса OpenClaw для обхода ограничений контента

От 88 до 100 PSI: Claude Code для оптимизации фронтенда