MiniMax M2.7 Q8_0 128K sur 2x3090 : Configuration et Benchmarks

Dans un récent post sur r/LocalLLaMA, un utilisateur partage son expérience de poussée du modèle MiniMax M2.7 (en quantification Q8_0) jusqu'à un contexte de 128K sur une configuration 2x3090 avec 256 Go de DDR4 et un CPU 10900X d'occasion. Le principal défi : faire fonctionner un grand modèle MoE avec un cache KV non quantifié sur du matériel relativement modeste pour sa catégorie.

Chiffres de performance

L'utilisateur rapporte :

Traitement de requête : environ 50 tokens par seconde
Génération de tokens : environ 10 tokens par seconde
Qualifié de « très lent mais utilisable pour les workflows d'agent de codage »

Configuration

Ils utilisent ik-llama-cuda (un fork de llama.cpp) avec les paramètres suivants (depuis leur configuration NixOS) :

${ik-llama-cuda}/bin/llama-server \
  -m ${modelPath} \
  --host 0.0.0.0 \
  --port ${toString cfg.port} \
  -c ${toString cfg.contextLength} \
  -ngl 999 \
  --cpu-moe \
  -sm graph \
  -fa on \
  -t 16 \
  -tb 16 \
  -b 4096 \
  -ub 4096 \
  -np 1 \
  -muge \
  -ger \
  --jinja \
  --metrics \
  --temp 1.0 \
  --top-p 0.95 \
  --top-k 40 \
  --min-p 0.01

Paramètres notables :

--cpu-moe – décharge le calcul des experts MoE sur le CPU
-sm graph – active l'ordonnancement basé sur un graphe
-fa on – attention flash
-t 16 / -tb 16 – 16 threads pour le calcul et le lot respectivement
-b 4096 / -ub 4096 – taille de lot et de sous-lot
-muge – chargement d'expert guidé par l'utilisation mémoire (probablement)
-ger – routage d'expert sur GPU

Contexte et motivation

L'utilisateur indique que le Q8_0 a été choisi pour atténuer un « comportement étrange » observé avec des quantifications inférieures. Il note que le modèle de brouillon pour le décodage spéculatif n'a pas été publié pour M2.7, ce qui aurait pu améliorer la vitesse. Il est principalement intéressé par la précision plutôt que la vitesse, tant que la génération ne prend pas « littéralement toute la journée ».

Enseignement pour les développeurs

Il s'agit d'un point de référence pratique pour quiconque exécute de grands modèles MoE sur des configurations multi-GPU avec de la RAM système. L'approche --cpu-moe permet d'étendre le contexte bien au-delà des limites de la VRAM, bien qu'à vitesse réduite. Pour les workflows d'agent de codage où la latence est moins critique, ce compromis peut être acceptable.

📖 Lire la source complète : r/LocalLLaMA

Exécution de MiniMax M2.7 Q8_0 128K sur 2x3090 avec déchargement CPU – Benchmarks réels et configuration

Chiffres de performance

Configuration

Contexte et motivation

Enseignement pour les développeurs

👀 See Also

L'enquête sur l'utilisation des jetons OpenClaw révèle des problèmes de configuration.

[Mise à jour] Vous avez demandé un moyen sécurisé et "toujours actif" d'exécuter OpenClaw sans les tracas d'un VPS. Nous l'avons créé. La liste d'attente est ouverte.

Traduction en fr : Contournement de la Compaction de Claude : Utilisation d'un Fichier Handoff.MD

Un bon développement assisté par l'IA se produit au niveau des systèmes, pas au niveau des tâches