MiniMax M2.7 Q8_0 128K на 2x3090: бенчмарки и настройка

В недавнем посте на r/LocalLLaMA пользователь делится опытом запуска модели MiniMax M2.7 (в квантовании Q8_0) с контекстом 128K на конфигурации с двумя 3090, 256 ГБ DDR4 и бывшим в употреблении процессором 10900X. Ключевая задача: запуск большой модели MoE с неквантованным KV-кэшем на относительно слабом для своего класса оборудовании.

Производительность

Пользователь сообщает:

Обработка промпта: ~50 токенов в секунду
Генерация токенов: ~10 токенов в секунду
Описано как «очень медленно, но приемлемо для рабочих процессов агентов кодирования»

Конфигурация

Они используют ik-llama-cuda (форк llama.cpp) со следующими флагами (из конфигурации NixOS):

${ik-llama-cuda}/bin/llama-server \
  -m ${modelPath} \
  --host 0.0.0.0 \
  --port ${toString cfg.port} \
  -c ${toString cfg.contextLength} \
  -ngl 999 \
  --cpu-moe \
  -sm graph \
  -fa on \
  -t 16 \
  -tb 16 \
  -b 4096 \
  -ub 4096 \
  -np 1 \
  -muge \
  -ger \
  --jinja \
  --metrics \
  --temp 1.0 \
  --top-p 0.95 \
  --top-k 40 \
  --min-p 0.01

Примечательные флаги:

--cpu-moe – выгрузка вычислений экспертов MoE на CPU
-sm graph – включает графовое планирование
-fa on – flash attention
-t 16 / -tb 16 – 16 потоков для вычислений и пакетной обработки соответственно
-b 4096 / -ub 4096 – размер пакета и подпакета
-muge – загрузка экспертов с учётом использования памяти (предположительно)
-ger – маршрутизация экспертов на GPU

Контекст и мотивация

Пользователь сообщает, что Q8_0 был выбран для уменьшения «странного поведения», наблюдаемого при более низких квантованиях. Они отмечают, что черновая модель для спекулятивного декодирования для M2.7 не была выпущена, что могло бы повысить скорость. Их в первую очередь интересует точность, а не скорость, при условии, что генерация не занимает «буквально весь день».

Вывод для разработчиков

Это практический пример для всех, кто запускает большие модели MoE на многопроцессорных конфигурациях с системной памятью. Подход --cpu-moe позволяет масштабировать контекст далеко за пределы VRAM, хотя и с уменьшенной скоростью. Для рабочих процессов агентов кодирования, где задержка не критична, такой компромисс может быть приемлем.

📖 Читать полный источник: r/LocalLLaMA

Запуск MiniMax M2.7 Q8_0 128K на 2x3090 с разгрузкой CPU – реальные бенчмарки и конфигурация

Производительность

Конфигурация

Контекст и мотивация

Вывод для разработчиков

👀 Смотрите также

Клод Код требует конкретных запросов, а не расплывчатых инструкций.

13 лжей, которые рассказывают ИИ, и подсказки, которые ловят каждую из них

Память рабочего процесса против инструментов: почему загрузка контекста эффективнее гигантских промптов

8 тактических советов по рабочему процессу Claude Code для готового к выпуску результата