Ejecutando MiniMax M2.7 Q8_0 128K en 2x3090 con descarga de CPU: benchmarks y configuración del mundo real

✍️ OpenClawRadar📅 Publicado: 17 de mayo de 2026🔗 Source
Ejecutando MiniMax M2.7 Q8_0 128K en 2x3090 con descarga de CPU: benchmarks y configuración del mundo real
Ad

En una publicación reciente en r/LocalLLaMA, un usuario comparte su experiencia llevando el modelo MiniMax M2.7 (con cuantización Q8_0) a 128K de contexto en una configuración de 2x3090 con 256GB DDR4 y un CPU 10900X de segunda mano. El desafío clave: ejecutar un modelo MoE grande con caché KV sin cuantizar en hardware relativamente modesto para su clase.

Números de rendimiento

El usuario reporta:

  • Procesamiento de prompt: ~50 tokens por segundo
  • Generación de tokens: ~10 tokens por segundo
  • Describe como “muy lento pero utilizable para flujos de trabajo de agente de codificación”

Configuración

Usan ik-llama-cuda (un fork de llama.cpp) con los siguientes flags (desde su configuración de NixOS):

${ik-llama-cuda}/bin/llama-server \
  -m ${modelPath} \
  --host 0.0.0.0 \
  --port ${toString cfg.port} \
  -c ${toString cfg.contextLength} \
  -ngl 999 \
  --cpu-moe \
  -sm graph \
  -fa on \
  -t 16 \
  -tb 16 \
  -b 4096 \
  -ub 4096 \
  -np 1 \
  -muge \
  -ger \
  --jinja \
  --metrics \
  --temp 1.0 \
  --top-p 0.95 \
  --top-k 40 \
  --min-p 0.01

Flags notables:

  • --cpu-moe – descarga el cómputo de expertos MoE a la CPU
  • -sm graph – habilita la planificación basada en grafos
  • -fa on – atención flash
  • -t 16 / -tb 16 – 16 hilos para cómputo y batch respectivamente
  • -b 4096 / -ub 4096 – tamaño de batch y ubatch
  • -muge – carga de expertos guiada por uso de memoria (probablemente)
  • -ger – enrutamiento de expertos a GPU

Ad

Contexto y motivación

El usuario informa que eligió Q8_0 para mitigar el “comportamiento extraño” observado en cuantizaciones más bajas. Señala que el modelo borrador para decodificación especulativa no fue liberado para M2.7, lo que podría haber mejorado la velocidad. Están principalmente interesados en precisión sobre velocidad, siempre que la generación no tome “literalmente todo el día”.

Conclusión para desarrolladores

Este es un dato práctico para cualquiera que ejecute modelos MoE grandes en configuraciones multi-GPU con RAM del sistema. El enfoque --cpu-moe permite escalar el contexto mucho más allá de los límites de VRAM, aunque a velocidad reducida. Para flujos de trabajo de agente de codificación donde la latencia es menos crítica, esta compensación puede ser aceptable.

📖 Lee la fuente completa: r/LocalLLaMA

Ad

👀 Ver también

Cómo ejecutar OpenClaw sin arruinarte: guía de configuración
Consejos

Cómo ejecutar OpenClaw sin arruinarte: guía de configuración

El usuario de Reddit digitalknk compartió una guía práctica para ejecutar OpenClaw de manera eficiente. Una configuración probada enfocada en estabilidad y control de costos.

u/digitalknk
Usuarios de Claude AI Obtienen Mejores Resultados al Proporcionar Contexto en Lugar de Indicaciones Genéricas
Consejos

Usuarios de Claude AI Obtienen Mejores Resultados al Proporcionar Contexto en Lugar de Indicaciones Genéricas

Un debate en Reddit destaca que los usuarios que realizan trabajo real con Claude AI proporcionan contexto específico sobre su situación, lo que han intentado, cómo se ve un buen resultado y qué evitar, en lugar de tratarlo como un motor de búsqueda.

OpenClawRadar
OpenClaw WhatsApp Auto-Reply Puede Omitir la Comprensión de Medios en 2026.4.2
Consejos

OpenClaw WhatsApp Auto-Reply Puede Omitir la Comprensión de Medios en 2026.4.2

Un usuario reporta que el flujo de respuesta automática de WhatsApp en OpenClaw 2026.4.2 puede omitir el pipeline de comprensión de medios, lo que impide la transcripción de notas de voz al usar backends de STT externos como Groq. La solución implica llamar explícitamente a la comprensión de medios antes del envío al agente.

OpenClawRadar
10 Consejos Prácticos para Usar Claude Code de un Usuario de Reddit
Consejos

10 Consejos Prácticos para Usar Claude Code de un Usuario de Reddit

Un usuario de Reddit comparte técnicas específicas para Claude Code, incluyendo el uso de /effort high con 'ultrathink' para pensamiento extendido, crear ramas de conversación aisladas con /fork y configurar ganchos personalizados en .claude/settings.json.

OpenClawRadar