MiniMax M2.7 Q8_0 128K en 2x3090: benchmarks y configuración

En una publicación reciente en r/LocalLLaMA, un usuario comparte su experiencia llevando el modelo MiniMax M2.7 (con cuantización Q8_0) a 128K de contexto en una configuración de 2x3090 con 256GB DDR4 y un CPU 10900X de segunda mano. El desafío clave: ejecutar un modelo MoE grande con caché KV sin cuantizar en hardware relativamente modesto para su clase.

Números de rendimiento

El usuario reporta:

Procesamiento de prompt: ~50 tokens por segundo
Generación de tokens: ~10 tokens por segundo
Describe como “muy lento pero utilizable para flujos de trabajo de agente de codificación”

Configuración

Usan ik-llama-cuda (un fork de llama.cpp) con los siguientes flags (desde su configuración de NixOS):

${ik-llama-cuda}/bin/llama-server \
  -m ${modelPath} \
  --host 0.0.0.0 \
  --port ${toString cfg.port} \
  -c ${toString cfg.contextLength} \
  -ngl 999 \
  --cpu-moe \
  -sm graph \
  -fa on \
  -t 16 \
  -tb 16 \
  -b 4096 \
  -ub 4096 \
  -np 1 \
  -muge \
  -ger \
  --jinja \
  --metrics \
  --temp 1.0 \
  --top-p 0.95 \
  --top-k 40 \
  --min-p 0.01

Flags notables:

--cpu-moe – descarga el cómputo de expertos MoE a la CPU
-sm graph – habilita la planificación basada en grafos
-fa on – atención flash
-t 16 / -tb 16 – 16 hilos para cómputo y batch respectivamente
-b 4096 / -ub 4096 – tamaño de batch y ubatch
-muge – carga de expertos guiada por uso de memoria (probablemente)
-ger – enrutamiento de expertos a GPU

Contexto y motivación

El usuario informa que eligió Q8_0 para mitigar el “comportamiento extraño” observado en cuantizaciones más bajas. Señala que el modelo borrador para decodificación especulativa no fue liberado para M2.7, lo que podría haber mejorado la velocidad. Están principalmente interesados en precisión sobre velocidad, siempre que la generación no tome “literalmente todo el día”.

Conclusión para desarrolladores

Este es un dato práctico para cualquiera que ejecute modelos MoE grandes en configuraciones multi-GPU con RAM del sistema. El enfoque --cpu-moe permite escalar el contexto mucho más allá de los límites de VRAM, aunque a velocidad reducida. Para flujos de trabajo de agente de codificación donde la latencia es menos crítica, esta compensación puede ser aceptable.

📖 Lee la fuente completa: r/LocalLLaMA

Ejecutando MiniMax M2.7 Q8_0 128K en 2x3090 con descarga de CPU: benchmarks y configuración del mundo real

Números de rendimiento

Configuración

Contexto y motivación

Conclusión para desarrolladores

👀 Ver también

Reduzca los Tokens de Agentes Slash en un 60%: Limpie el Espacio de Trabajo de su Bot

Corrección de Tiempo de Espera de OpenClaw LLM para Carga de Modelo Frío

Sí Flujo/No Flujo: Una Técnica Sencilla para Reducir la Alucinación de Contexto en Sesiones de Programación con IA

Comprimir archivos CLAUDE.md para reducir la hinchazón del prompt del sistema en Claude Code