MiniMax M2.7 Q8_0 128K em 2x3090: Benchmarks Reais e Configurações

Em uma postagem recente no r/LocalLLaMA, um usuário compartilha sua experiência ao levar o modelo MiniMax M2.7 (na quantização Q8_0) a 128K de contexto em uma configuração com 2x3090, 256GB DDR4 e uma CPU 10900X de segunda mão. O principal desafio: executar um modelo MoE grande com cache KV não quantizado em hardware relativamente modesto para sua classe.

Números de Desempenho

O usuário relata:

Processamento de prompt: ~50 tokens por segundo
Geração de tokens: ~10 tokens por segundo
Descrito como "muito lento, mas utilizável para fluxos de trabalho de agente de codificação"

Configuração

Eles usam ik-llama-cuda (um fork do llama.cpp) com as seguintes flags (do config NixOS):

${ik-llama-cuda}/bin/llama-server \
  -m ${modelPath} \
  --host 0.0.0.0 \
  --port ${toString cfg.port} \
  -c ${toString cfg.contextLength} \
  -ngl 999 \
  --cpu-moe \
  -sm graph \
  -fa on \
  -t 16 \
  -tb 16 \
  -b 4096 \
  -ub 4096 \
  -np 1 \
  -muge \
  -ger \
  --jinja \
  --metrics \
  --temp 1.0 \
  --top-p 0.95 \
  --top-k 40 \
  --min-p 0.01

Flags notáveis:

--cpu-moe – descarrega a computação dos especialistas do MoE para a CPU
-sm graph – ativa o agendamento baseado em grafo
-fa on – atenção flash
-t 16 / -tb 16 – 16 threads para computação e lote, respectivamente
-b 4096 / -ub 4096 – tamanho do lote e do sublote
-muge – carregamento de especialistas guiado pelo uso de memória (provavelmente)
-ger – roteamento de especialistas pela GPU

Contexto e Motivação

O usuário relata que o Q8_0 foi escolhido para mitigar "comportamentos estranhos" observados em quantizações menores. Eles observam que o modelo de rascunho para decodificação especulativa não foi lançado para o M2.7, o que poderia ter melhorado a velocidade. Eles estão principalmente interessados em precisão em vez de velocidade, desde que a geração não leve "literalmente o dia todo".

Conclusão para Desenvolvedores

Este é um dado prático para qualquer pessoa que execute grandes modelos MoE em configurações multi-GPU com RAM do sistema. A abordagem --cpu-moe permite escalar o contexto muito além dos limites da VRAM, embora com velocidade reduzida. Para fluxos de trabalho de agente de codificação onde a latência é menos crítica, essa troca pode ser aceitável.

📖 Leia a fonte completa: r/LocalLLaMA