Executando MiniMax M2.7 Q8_0 128K em 2x3090 com Offloading de CPU – Benchmarks e Configurações do Mundo Real

✍️ OpenClawRadar📅 Publicado: May 17, 2026🔗 Source
Executando MiniMax M2.7 Q8_0 128K em 2x3090 com Offloading de CPU – Benchmarks e Configurações do Mundo Real
Ad

Em uma postagem recente no r/LocalLLaMA, um usuário compartilha sua experiência ao levar o modelo MiniMax M2.7 (na quantização Q8_0) a 128K de contexto em uma configuração com 2x3090, 256GB DDR4 e uma CPU 10900X de segunda mão. O principal desafio: executar um modelo MoE grande com cache KV não quantizado em hardware relativamente modesto para sua classe.

Números de Desempenho

O usuário relata:

  • Processamento de prompt: ~50 tokens por segundo
  • Geração de tokens: ~10 tokens por segundo
  • Descrito como "muito lento, mas utilizável para fluxos de trabalho de agente de codificação"

Configuração

Eles usam ik-llama-cuda (um fork do llama.cpp) com as seguintes flags (do config NixOS):

${ik-llama-cuda}/bin/llama-server \
  -m ${modelPath} \
  --host 0.0.0.0 \
  --port ${toString cfg.port} \
  -c ${toString cfg.contextLength} \
  -ngl 999 \
  --cpu-moe \
  -sm graph \
  -fa on \
  -t 16 \
  -tb 16 \
  -b 4096 \
  -ub 4096 \
  -np 1 \
  -muge \
  -ger \
  --jinja \
  --metrics \
  --temp 1.0 \
  --top-p 0.95 \
  --top-k 40 \
  --min-p 0.01

Flags notáveis:

  • --cpu-moe – descarrega a computação dos especialistas do MoE para a CPU
  • -sm graph – ativa o agendamento baseado em grafo
  • -fa on – atenção flash
  • -t 16 / -tb 16 – 16 threads para computação e lote, respectivamente
  • -b 4096 / -ub 4096 – tamanho do lote e do sublote
  • -muge – carregamento de especialistas guiado pelo uso de memória (provavelmente)
  • -ger – roteamento de especialistas pela GPU

Ad

Contexto e Motivação

O usuário relata que o Q8_0 foi escolhido para mitigar "comportamentos estranhos" observados em quantizações menores. Eles observam que o modelo de rascunho para decodificação especulativa não foi lançado para o M2.7, o que poderia ter melhorado a velocidade. Eles estão principalmente interessados em precisão em vez de velocidade, desde que a geração não leve "literalmente o dia todo".

Conclusão para Desenvolvedores

Este é um dado prático para qualquer pessoa que execute grandes modelos MoE em configurações multi-GPU com RAM do sistema. A abordagem --cpu-moe permite escalar o contexto muito além dos limites da VRAM, embora com velocidade reduzida. Para fluxos de trabalho de agente de codificação onde a latência é menos crítica, essa troca pode ser aceitável.

📖 Leia a fonte completa: r/LocalLLaMA

Ad

👀 See Also

Pare os travessões do Claude com uma linha em Preferências ou Claude.md
Tips

Pare os travessões do Claude com uma linha em Preferências ou Claude.md

Adicione uma frase específica às preferências do seu perfil Claude.ai ou ao arquivo Claude.md para reduzir travessões em ~98%. Este é um ajuste prático testado pela comunidade.

OpenClawRadar
Correção da velocidade de processamento de prompts no Llama.cpp usando o parâmetro --ubatch-size
Tips

Correção da velocidade de processamento de prompts no Llama.cpp usando o parâmetro --ubatch-size

Um usuário descobriu que definir --ubatch-size para corresponder ao tamanho do cache L3 da GPU (64MB para Radeon 9070XT) melhorou drasticamente a velocidade de processamento de prompts para modelos maiores como Qwen 27B no Llama.cpp, tornando a invocação de código Claude utilizável.

OpenClawRadar
Como as Instruções do Projeto Claude São Injetadas — E Por Que Alterá-las no Meio da Conversação Quebra o Histórico
Tips

Como as Instruções do Projeto Claude São Injetadas — E Por Que Alterá-las no Meio da Conversação Quebra o Histórico

Instruções do Projeto e Preferências do Usuário são carregadas no prompt do sistema no início da conversa, não são reinseridas a cada turno. Alterá-las no meio da conversa faz com que Claude sobrescreva sua memória das instruções anteriores, levando a falsas lembranças.

OpenClawRadar
Camada de Governança para Agentes Claude: Limites de Segurança Rígidos e Rastreios ao Vivo em Produção
Tips

Camada de Governança para Agentes Claude: Limites de Segurança Rígidos e Rastreios ao Vivo em Produção

Um usuário da API Claude construiu uma camada de governança leve abaixo do agente para adicionar limites rígidos de segurança, rastreamentos em tempo real, controle humano-no-loop via Telegram e checkpoint automático — resolvendo falhas silenciosas e custos de token descontrolados em loops de agentes de longa duração.

OpenClawRadar