Ejecutando MiniMax M2.7 Q8_0 128K en 2x3090 con descarga de CPU: benchmarks y configuración del mundo real

En una publicación reciente en r/LocalLLaMA, un usuario comparte su experiencia llevando el modelo MiniMax M2.7 (con cuantización Q8_0) a 128K de contexto en una configuración de 2x3090 con 256GB DDR4 y un CPU 10900X de segunda mano. El desafío clave: ejecutar un modelo MoE grande con caché KV sin cuantizar en hardware relativamente modesto para su clase.
Números de rendimiento
El usuario reporta:
- Procesamiento de prompt: ~50 tokens por segundo
- Generación de tokens: ~10 tokens por segundo
- Describe como “muy lento pero utilizable para flujos de trabajo de agente de codificación”
Configuración
Usan ik-llama-cuda (un fork de llama.cpp) con los siguientes flags (desde su configuración de NixOS):
${ik-llama-cuda}/bin/llama-server \
-m ${modelPath} \
--host 0.0.0.0 \
--port ${toString cfg.port} \
-c ${toString cfg.contextLength} \
-ngl 999 \
--cpu-moe \
-sm graph \
-fa on \
-t 16 \
-tb 16 \
-b 4096 \
-ub 4096 \
-np 1 \
-muge \
-ger \
--jinja \
--metrics \
--temp 1.0 \
--top-p 0.95 \
--top-k 40 \
--min-p 0.01Flags notables:
--cpu-moe– descarga el cómputo de expertos MoE a la CPU-sm graph– habilita la planificación basada en grafos-fa on– atención flash-t 16/-tb 16– 16 hilos para cómputo y batch respectivamente-b 4096/-ub 4096– tamaño de batch y ubatch-muge– carga de expertos guiada por uso de memoria (probablemente)-ger– enrutamiento de expertos a GPU
Contexto y motivación
El usuario informa que eligió Q8_0 para mitigar el “comportamiento extraño” observado en cuantizaciones más bajas. Señala que el modelo borrador para decodificación especulativa no fue liberado para M2.7, lo que podría haber mejorado la velocidad. Están principalmente interesados en precisión sobre velocidad, siempre que la generación no tome “literalmente todo el día”.
Conclusión para desarrolladores
Este es un dato práctico para cualquiera que ejecute modelos MoE grandes en configuraciones multi-GPU con RAM del sistema. El enfoque --cpu-moe permite escalar el contexto mucho más allá de los límites de VRAM, aunque a velocidad reducida. Para flujos de trabajo de agente de codificación donde la latencia es menos crítica, esta compensación puede ser aceptable.
📖 Lee la fuente completa: r/LocalLLaMA
👀 Ver también

Cómo ejecutar OpenClaw sin arruinarte: guía de configuración
El usuario de Reddit digitalknk compartió una guía práctica para ejecutar OpenClaw de manera eficiente. Una configuración probada enfocada en estabilidad y control de costos.

Usuarios de Claude AI Obtienen Mejores Resultados al Proporcionar Contexto en Lugar de Indicaciones Genéricas
Un debate en Reddit destaca que los usuarios que realizan trabajo real con Claude AI proporcionan contexto específico sobre su situación, lo que han intentado, cómo se ve un buen resultado y qué evitar, en lugar de tratarlo como un motor de búsqueda.

OpenClaw WhatsApp Auto-Reply Puede Omitir la Comprensión de Medios en 2026.4.2
Un usuario reporta que el flujo de respuesta automática de WhatsApp en OpenClaw 2026.4.2 puede omitir el pipeline de comprensión de medios, lo que impide la transcripción de notas de voz al usar backends de STT externos como Groq. La solución implica llamar explícitamente a la comprensión de medios antes del envío al agente.

10 Consejos Prácticos para Usar Claude Code de un Usuario de Reddit
Un usuario de Reddit comparte técnicas específicas para Claude Code, incluyendo el uso de /effort high con 'ultrathink' para pensamiento extendido, crear ramas de conversación aisladas con /fork y configurar ganchos personalizados en .claude/settings.json.