MiniMax M2.7 Q8_0 128K auf 2x3090 + CPU-Offloading: Benchmarks

In einem aktuellen r/LocalLLaMA-Beitrag berichtet ein Benutzer von seinen Erfahrungen mit dem MiniMax M2.7-Modell (in Q8_0-Quantisierung) bei 128K Kontext auf einem 2x3090-Setup mit 256 GB DDR4 und einer gebrauchten 10900X-CPU. Die größte Herausforderung: ein großes MoE-Modell mit unquantisiertem KV-Cache auf relativ schwacher Hardware für diese Klasse auszuführen.

Leistungszahlen

Der Benutzer berichtet:

Prompt-Verarbeitung: ~50 Tokens pro Sekunde
Token-Generierung: ~10 Tokens pro Sekunde
Beschrieben als „sehr langsam, aber für Coding-Agent-Workflows nutzbar“

Konfiguration

Er verwendet ik-llama-cuda (einen llama.cpp-Fork) mit den folgenden Flags (aus seiner NixOS-Konfiguration):

${ik-llama-cuda}/bin/llama-server \
  -m ${modelPath} \
  --host 0.0.0.0 \
  --port ${toString cfg.port} \
  -c ${toString cfg.contextLength} \
  -ngl 999 \
  --cpu-moe \
  -sm graph \
  -fa on \
  -t 16 \
  -tb 16 \
  -b 4096 \
  -ub 4096 \
  -np 1 \
  -muge \
  -ger \
  --jinja \
  --metrics \
  --temp 1.0 \
  --top-p 0.95 \
  --top-k 40 \
  --min-p 0.01

Bemerkenswerte Flags:

--cpu-moe – verlagert MoE-Expertenberechnungen auf die CPU
-sm graph – aktiviert grafikbasiertes Scheduling
-fa on – Flash Attention
-t 16 / -tb 16 – 16 Threads für Berechnung bzw. Batch
-b 4096 / -ub 4096 – Batch- und Ubatch-Größe
-muge – speichernutzungsgesteuertes Expertenladen (vermutlich)
-ger – GPU-Experten-Routing

Kontext & Motivation

Der Benutzer gibt an, dass Q8_0 gewählt wurde, um „seltsames Verhalten“ bei niedrigeren Quantisierungen zu vermeiden. Er merkt an, dass das Draft-Modell des Modells für spekulative Dekodierung nicht für M2.7 veröffentlicht wurde, was die Geschwindigkeit hätte verbessern können. Ihm geht es hauptsächlich um Genauigkeit statt Geschwindigkeit, solange die Generierung nicht „buchstäblich den ganzen Tag“ dauert.

Fazit für Entwickler

Dies ist ein praktischer Datenpunkt für alle, die große MoE-Modelle auf Multi-GPU-Setups mit System-RAM betreiben. Der --cpu-moe-Ansatz ermöglicht es, den Kontext weit über die VRAM-Grenzen hinaus zu skalieren, wenn auch mit reduzierter Geschwindigkeit. Für Coding-Agent-Workflows, bei denen Latenz weniger kritisch ist, kann dieser Kompromiss akzeptabel sein.

📖 Lese die vollständige Quelle: r/LocalLLaMA

MiniMax M2.7 Q8_0 128K auf 2x3090 mit CPU-Offloading – Benchmarks und Konfiguration aus der Praxis

Leistungszahlen

Konfiguration

Kontext & Motivation

Fazit für Entwickler

👀 Siehe auch

OpenClaw auf M4 Pro: An Grenzen stoßen mit Browser-Nutzung, Computer-Nutzung und Codex

Hohe CPU/RAM-Auslastung und Gateway-Neustarts in OpenClaw? IPv6 für Telegram deaktivieren

Biss- vs. Knabber-Ansätze für KI-Codierungsagenten

Jeden MCP-Server bei jeder Eingabeaufforderung zu laden, zerstört leise das Token-Budget