Запуск MiniMax M2.7 Q8_0 128K на 2x3090 с разгрузкой CPU – реальные бенчмарки и конфигурация

В недавнем посте на r/LocalLLaMA пользователь делится опытом запуска модели MiniMax M2.7 (в квантовании Q8_0) с контекстом 128K на конфигурации с двумя 3090, 256 ГБ DDR4 и бывшим в употреблении процессором 10900X. Ключевая задача: запуск большой модели MoE с неквантованным KV-кэшем на относительно слабом для своего класса оборудовании.
Производительность
Пользователь сообщает:
- Обработка промпта: ~50 токенов в секунду
- Генерация токенов: ~10 токенов в секунду
- Описано как «очень медленно, но приемлемо для рабочих процессов агентов кодирования»
Конфигурация
Они используют ik-llama-cuda (форк llama.cpp) со следующими флагами (из конфигурации NixOS):
${ik-llama-cuda}/bin/llama-server \
-m ${modelPath} \
--host 0.0.0.0 \
--port ${toString cfg.port} \
-c ${toString cfg.contextLength} \
-ngl 999 \
--cpu-moe \
-sm graph \
-fa on \
-t 16 \
-tb 16 \
-b 4096 \
-ub 4096 \
-np 1 \
-muge \
-ger \
--jinja \
--metrics \
--temp 1.0 \
--top-p 0.95 \
--top-k 40 \
--min-p 0.01Примечательные флаги:
--cpu-moe– выгрузка вычислений экспертов MoE на CPU-sm graph– включает графовое планирование-fa on– flash attention-t 16/-tb 16– 16 потоков для вычислений и пакетной обработки соответственно-b 4096/-ub 4096– размер пакета и подпакета-muge– загрузка экспертов с учётом использования памяти (предположительно)-ger– маршрутизация экспертов на GPU
Контекст и мотивация
Пользователь сообщает, что Q8_0 был выбран для уменьшения «странного поведения», наблюдаемого при более низких квантованиях. Они отмечают, что черновая модель для спекулятивного декодирования для M2.7 не была выпущена, что могло бы повысить скорость. Их в первую очередь интересует точность, а не скорость, при условии, что генерация не занимает «буквально весь день».
Вывод для разработчиков
Это практический пример для всех, кто запускает большие модели MoE на многопроцессорных конфигурациях с системной памятью. Подход --cpu-moe позволяет масштабировать контекст далеко за пределы VRAM, хотя и с уменьшенной скоростью. Для рабочих процессов агентов кодирования, где задержка не критична, такой компромисс может быть приемлем.
📖 Читать полный источник: r/LocalLLaMA
👀 Смотрите также

OpenClaw на M4 Pro: столкновение с ограничениями браузер-использования, компьютер-использования и Кодекса
Пользователь сообщает, что агенты зависают в терминальных циклах, блокируются на сайтах и выдают поврежденные выходные данные Codex, и ищет настройки конфигурации для браузера автоматизации, управления графическим интерфейсом macOS и прерывания циклов.

Запуск OpenClaw внутри Docker-контейнера Ollama для упрощения работы с сетью
Пользователь Reddit показывает, как установить OpenClaw внутрь официального Docker-контейнера ollama/ollama, чтобы OpenClaw связывался с Ollama через localhost, избегая host.docker.internal и дополнительной настройки сети. Компромисс — более высокое использование ОЗУ.

Прекратите сжигать токены Claude Code на чат-вопросы
Один разработчик на r/ClaudeAI сэкономил еженедельный лимит токенов, направляя простые вопросы чата дешевым моделям вроде Haiku, оставив Claude Code для агентских задач, таких как редактирование нескольких файлов.

Кодируйте ИИ-ботов для борьбы с людьми в новой многопользовательской игре.
Новая многопользовательская игра позволяет игрокам программировать ИИ-ботов для состязаний с человеческими игроками в реальном времени, предлагая уникальное сочетание вызовов кодирования и игр.