Exécution de MiniMax M2.7 Q8_0 128K sur 2x3090 avec déchargement CPU – Benchmarks réels et configuration

✍️ OpenClawRadar📅 Publié: May 17, 2026🔗 Source
Exécution de MiniMax M2.7 Q8_0 128K sur 2x3090 avec déchargement CPU – Benchmarks réels et configuration
Ad

Dans un récent post sur r/LocalLLaMA, un utilisateur partage son expérience de poussée du modèle MiniMax M2.7 (en quantification Q8_0) jusqu'à un contexte de 128K sur une configuration 2x3090 avec 256 Go de DDR4 et un CPU 10900X d'occasion. Le principal défi : faire fonctionner un grand modèle MoE avec un cache KV non quantifié sur du matériel relativement modeste pour sa catégorie.

Chiffres de performance

L'utilisateur rapporte :

  • Traitement de requête : environ 50 tokens par seconde
  • Génération de tokens : environ 10 tokens par seconde
  • Qualifié de « très lent mais utilisable pour les workflows d'agent de codage »

Configuration

Ils utilisent ik-llama-cuda (un fork de llama.cpp) avec les paramètres suivants (depuis leur configuration NixOS) :

${ik-llama-cuda}/bin/llama-server \
  -m ${modelPath} \
  --host 0.0.0.0 \
  --port ${toString cfg.port} \
  -c ${toString cfg.contextLength} \
  -ngl 999 \
  --cpu-moe \
  -sm graph \
  -fa on \
  -t 16 \
  -tb 16 \
  -b 4096 \
  -ub 4096 \
  -np 1 \
  -muge \
  -ger \
  --jinja \
  --metrics \
  --temp 1.0 \
  --top-p 0.95 \
  --top-k 40 \
  --min-p 0.01

Paramètres notables :

  • --cpu-moe – décharge le calcul des experts MoE sur le CPU
  • -sm graph – active l'ordonnancement basé sur un graphe
  • -fa on – attention flash
  • -t 16 / -tb 16 – 16 threads pour le calcul et le lot respectivement
  • -b 4096 / -ub 4096 – taille de lot et de sous-lot
  • -muge – chargement d'expert guidé par l'utilisation mémoire (probablement)
  • -ger – routage d'expert sur GPU

Ad

Contexte et motivation

L'utilisateur indique que le Q8_0 a été choisi pour atténuer un « comportement étrange » observé avec des quantifications inférieures. Il note que le modèle de brouillon pour le décodage spéculatif n'a pas été publié pour M2.7, ce qui aurait pu améliorer la vitesse. Il est principalement intéressé par la précision plutôt que la vitesse, tant que la génération ne prend pas « littéralement toute la journée ».

Enseignement pour les développeurs

Il s'agit d'un point de référence pratique pour quiconque exécute de grands modèles MoE sur des configurations multi-GPU avec de la RAM système. L'approche --cpu-moe permet d'étendre le contexte bien au-delà des limites de la VRAM, bien qu'à vitesse réduite. Pour les workflows d'agent de codage où la latence est moins critique, ce compromis peut être acceptable.

📖 Lire la source complète : r/LocalLLaMA

Ad

👀 See Also

Taux élevé de CPU/RAM et redémarrages de la passerelle dans OpenClaw ? Désactivez IPv6 pour Telegram
Tips

Taux élevé de CPU/RAM et redémarrages de la passerelle dans OpenClaw ? Désactivez IPv6 pour Telegram

Si votre instance OpenClaw rencontre une utilisation élevée du processeur/RAM, des réponses lentes et des redémarrages périodiques de la passerelle dans les versions récentes (notamment avec l'intégration Telegram), le coupable pourrait être <code>autoSelectFamily: true</code> (par défaut sur Node 22+). Un utilisateur de r/openclaw a retracé le problème à des connexions IPv6 échouées causant des fuites de ressources.

OpenClawRadar
OpenClaw API Budget Drain : Paramètres à modifier immédiatement
Tips

OpenClaw API Budget Drain : Paramètres à modifier immédiatement

La fonction Heartbeat par défaut d'OpenClaw peut épuiser les budgets d'API en vérifiant les tâches toutes les 30 minutes et en chargeant à chaque fois les fichiers de contexte complets, la mémoire et l'historique des conversations. La source recommande de modifier les Heures d'Activité, d'utiliser des modèles de base moins chers, de passer manuellement aux modèles premium uniquement lorsque nécessaire et d'utiliser /new pour réinitialiser les sessions.

OpenClawRadar
Conseils utiles de la communauté OpenClaw : Une exploration approfondie de l'optimisation des agents IA
Tips

Conseils utiles de la communauté OpenClaw : Une exploration approfondie de l'optimisation des agents IA

Découvrez des conseils précieux de la communauté OpenClaw pour optimiser les agents d'IA de codage afin d'améliorer leurs performances et leur efficacité. Ces idées pourraient révolutionner vos projets d'IA.

OpenClawRadar
Passer de GitHub Copilot Pro+ à l'API directe Anthropic : une analyse des coûts
Tips

Passer de GitHub Copilot Pro+ à l'API directe Anthropic : une analyse des coûts

Une comparaison des coûts par un développeur montre que l'API directe d'Anthropic peut être moins chère que GitHub Copilot Pro+ pour les développeurs solo, Sonnet 4.6 couvrant 80% des cas d'utilisation d'Opus.

OpenClawRadar