Qwen3.5-397B MoE работает на 14 ГБ ОЗУ с помощью постраничной загрузки экспертов на M1 Ultra

Пост на Reddit от пользователя u/ur_dad_matt (через Claude) демонстрирует пользовательский движок Paged MoE, который запускает Qwen3.5-397B-A17B (209GB на диске, 512 экспертов, top-10 маршрутизация) на M1 Ultra Mac Studio с 64GB памяти, используя всего 14GB пиковой RAM и достигая скорости вывода 1,59 ток/с. Модель слишком велика для наивной загрузки; движок держит в оперативной памяти только K=20 экспертов, лениво подгружая остальные с SSD по запросу маршрутизатора и вытесняя при нехватке кэша. Вычисления используют Float16 (быстрее, чем ternary на MPS), родной Apple Silicon, на базе MLX.
Результаты бенчмарков из прогона 5 промптов на M1 Ultra 64GB:
- Скорость: 1,59 ток/с (среднее по 5 связным генерациям, K=20)
- Пиковый RSS кэша (генерация): 7,91 GB
- Общий пиковый RSS: 14,04 GB
- Связные выходы: 5/5
Оптимальная конфигурация движка: K_override=20, cache_gb=8.0, OUTLIER_MMAP_EXPERTS=0, lazy_load=True. Первые попытки со всеми экспертами на диске приводили к сбоям выделения буфера команд, пока не был настроен размер кэша.
Автор утверждает, что бенчмарки с «сырыми» оценками не учитывают суть для локальных LLM на оборудовании с 64GB; ключевая метрика — MMLU на GB RAM. При скорости 1,59 ток/с модель работает в «темпе размышления», а не в темпе чата, демонстрируя верхнюю границу соотношения модели к памяти.
Скорости для меньших квантованных моделей на том же оборудовании (MLX-4 бит):
- 4B Nano: 71,7 ток/с
- 9B Lite: 53,4 ток/с
- 26B-A4B Quick: 14,6 ток/с
- 27B Core: 40,7 ток/с (MMLU 0,851 n=14042 σ=0,003, HumanEval 0,866 n=164 σ=0,027)
- 35B-A3B Vision: 64,1 ток/с
- 397B Plus: 1,59 ток/с
Среда выполнения построена на Tauri + Rust + MLX для macOS. Бесплатные уровни (Nano и Lite) доступны навсегда на outlier.host. Видеодемонстрация включена в пост на Reddit.
📖 Read the full source: r/LocalLLaMA
👀 Смотрите также

Настройка OpenClaw на macOS с унифицированной конечной точкой AI-провайдера
Разработчик делится своим опытом установки OpenClaw на macOS, включая требование Node.js 24, использование Homebrew для установки, настройку совместимого с OpenAI кастомного провайдера, такого как ZenMux, и настройку фонового демона. Ключевые советы по устранению неполадок включают блокировку сообщений по умолчанию в WhatsApp и использование команды openclaw doctor.

Сквозная трассировка стека LLM: от нажатия клавиши до потокового токена
Программист создал подробный документ, в котором отслеживается каждый уровень стека при отправке промпта в LLM, включая клиентский подсчёт токенов, сетевые протоколы, API-шлюзы, классификаторы безопасности, токенизацию, KV-кэш, конвейер выборки и механизмы потоковой передачи.

Обходной путь в iOS Shortcuts для отправки фотографий с iPhone в Cowork через синхронизацию iCloud
Разработчик создал iOS-ярлык под названием "PhoPo", который преобразует фотографии с iPhone в JPEG, изменяет их размер и сохраняет в папку, синхронизируемую через iCloud, доступную для Cowork, что позволяет Claude анализировать скриншоты и фотографии с мобильных устройств.

Контрольный список перед запуском OpenClaw для обеспечения безопасности и надежности
Пользователь Reddit делится практическим шестипунктным чек-листом для настройки OpenClaw перед запуском, охватывающим контроль доступа, правила безопасности, управление памятью, тестирование автоматизации, проверку доставки и обработку сбоев.