Qwen3.5-397B MoE работает на 14 ГБ ОЗУ с помощью постраничной загрузки экспертов на M1 Ultra

✍️ OpenClawRadar📅 Опубликовано: 7 мая 2026 г.🔗 Source
Qwen3.5-397B MoE работает на 14 ГБ ОЗУ с помощью постраничной загрузки экспертов на M1 Ultra
Ad

Пост на Reddit от пользователя u/ur_dad_matt (через Claude) демонстрирует пользовательский движок Paged MoE, который запускает Qwen3.5-397B-A17B (209GB на диске, 512 экспертов, top-10 маршрутизация) на M1 Ultra Mac Studio с 64GB памяти, используя всего 14GB пиковой RAM и достигая скорости вывода 1,59 ток/с. Модель слишком велика для наивной загрузки; движок держит в оперативной памяти только K=20 экспертов, лениво подгружая остальные с SSD по запросу маршрутизатора и вытесняя при нехватке кэша. Вычисления используют Float16 (быстрее, чем ternary на MPS), родной Apple Silicon, на базе MLX.

Результаты бенчмарков из прогона 5 промптов на M1 Ultra 64GB:

  • Скорость: 1,59 ток/с (среднее по 5 связным генерациям, K=20)
  • Пиковый RSS кэша (генерация): 7,91 GB
  • Общий пиковый RSS: 14,04 GB
  • Связные выходы: 5/5

Оптимальная конфигурация движка: K_override=20, cache_gb=8.0, OUTLIER_MMAP_EXPERTS=0, lazy_load=True. Первые попытки со всеми экспертами на диске приводили к сбоям выделения буфера команд, пока не был настроен размер кэша.

Ad

Автор утверждает, что бенчмарки с «сырыми» оценками не учитывают суть для локальных LLM на оборудовании с 64GB; ключевая метрика — MMLU на GB RAM. При скорости 1,59 ток/с модель работает в «темпе размышления», а не в темпе чата, демонстрируя верхнюю границу соотношения модели к памяти.

Скорости для меньших квантованных моделей на том же оборудовании (MLX-4 бит):

  • 4B Nano: 71,7 ток/с
  • 9B Lite: 53,4 ток/с
  • 26B-A4B Quick: 14,6 ток/с
  • 27B Core: 40,7 ток/с (MMLU 0,851 n=14042 σ=0,003, HumanEval 0,866 n=164 σ=0,027)
  • 35B-A3B Vision: 64,1 ток/с
  • 397B Plus: 1,59 ток/с

Среда выполнения построена на Tauri + Rust + MLX для macOS. Бесплатные уровни (Nano и Lite) доступны навсегда на outlier.host. Видеодемонстрация включена в пост на Reddit.

📖 Read the full source: r/LocalLLaMA

Ad

👀 Смотрите также

Настройка OpenClaw на macOS с унифицированной конечной точкой AI-провайдера
Гайды

Настройка OpenClaw на macOS с унифицированной конечной точкой AI-провайдера

Разработчик делится своим опытом установки OpenClaw на macOS, включая требование Node.js 24, использование Homebrew для установки, настройку совместимого с OpenAI кастомного провайдера, такого как ZenMux, и настройку фонового демона. Ключевые советы по устранению неполадок включают блокировку сообщений по умолчанию в WhatsApp и использование команды openclaw doctor.

OpenClawRadar
Сквозная трассировка стека LLM: от нажатия клавиши до потокового токена
Гайды

Сквозная трассировка стека LLM: от нажатия клавиши до потокового токена

Программист создал подробный документ, в котором отслеживается каждый уровень стека при отправке промпта в LLM, включая клиентский подсчёт токенов, сетевые протоколы, API-шлюзы, классификаторы безопасности, токенизацию, KV-кэш, конвейер выборки и механизмы потоковой передачи.

OpenClawRadar
Обходной путь в iOS Shortcuts для отправки фотографий с iPhone в Cowork через синхронизацию iCloud
Гайды

Обходной путь в iOS Shortcuts для отправки фотографий с iPhone в Cowork через синхронизацию iCloud

Разработчик создал iOS-ярлык под названием "PhoPo", который преобразует фотографии с iPhone в JPEG, изменяет их размер и сохраняет в папку, синхронизируемую через iCloud, доступную для Cowork, что позволяет Claude анализировать скриншоты и фотографии с мобильных устройств.

OpenClawRadar
Контрольный список перед запуском OpenClaw для обеспечения безопасности и надежности
Гайды

Контрольный список перед запуском OpenClaw для обеспечения безопасности и надежности

Пользователь Reddit делится практическим шестипунктным чек-листом для настройки OpenClaw перед запуском, охватывающим контроль доступа, правила безопасности, управление памятью, тестирование автоматизации, проверку доставки и обработку сбоев.

OpenClawRadar