MiniMax M2.7 Q8_0 128K auf 2x3090 mit CPU-Offloading – Benchmarks und Konfiguration aus der Praxis

✍️ OpenClawRadar📅 Veröffentlicht: 17. Mai 2026🔗 Source
MiniMax M2.7 Q8_0 128K auf 2x3090 mit CPU-Offloading – Benchmarks und Konfiguration aus der Praxis
Ad

In einem aktuellen r/LocalLLaMA-Beitrag berichtet ein Benutzer von seinen Erfahrungen mit dem MiniMax M2.7-Modell (in Q8_0-Quantisierung) bei 128K Kontext auf einem 2x3090-Setup mit 256 GB DDR4 und einer gebrauchten 10900X-CPU. Die größte Herausforderung: ein großes MoE-Modell mit unquantisiertem KV-Cache auf relativ schwacher Hardware für diese Klasse auszuführen.

Leistungszahlen

Der Benutzer berichtet:

  • Prompt-Verarbeitung: ~50 Tokens pro Sekunde
  • Token-Generierung: ~10 Tokens pro Sekunde
  • Beschrieben als „sehr langsam, aber für Coding-Agent-Workflows nutzbar“

Konfiguration

Er verwendet ik-llama-cuda (einen llama.cpp-Fork) mit den folgenden Flags (aus seiner NixOS-Konfiguration):

${ik-llama-cuda}/bin/llama-server \
  -m ${modelPath} \
  --host 0.0.0.0 \
  --port ${toString cfg.port} \
  -c ${toString cfg.contextLength} \
  -ngl 999 \
  --cpu-moe \
  -sm graph \
  -fa on \
  -t 16 \
  -tb 16 \
  -b 4096 \
  -ub 4096 \
  -np 1 \
  -muge \
  -ger \
  --jinja \
  --metrics \
  --temp 1.0 \
  --top-p 0.95 \
  --top-k 40 \
  --min-p 0.01

Bemerkenswerte Flags:

  • --cpu-moe – verlagert MoE-Expertenberechnungen auf die CPU
  • -sm graph – aktiviert grafikbasiertes Scheduling
  • -fa on – Flash Attention
  • -t 16 / -tb 16 – 16 Threads für Berechnung bzw. Batch
  • -b 4096 / -ub 4096 – Batch- und Ubatch-Größe
  • -muge – speichernutzungsgesteuertes Expertenladen (vermutlich)
  • -ger – GPU-Experten-Routing

Ad

Kontext & Motivation

Der Benutzer gibt an, dass Q8_0 gewählt wurde, um „seltsames Verhalten“ bei niedrigeren Quantisierungen zu vermeiden. Er merkt an, dass das Draft-Modell des Modells für spekulative Dekodierung nicht für M2.7 veröffentlicht wurde, was die Geschwindigkeit hätte verbessern können. Ihm geht es hauptsächlich um Genauigkeit statt Geschwindigkeit, solange die Generierung nicht „buchstäblich den ganzen Tag“ dauert.

Fazit für Entwickler

Dies ist ein praktischer Datenpunkt für alle, die große MoE-Modelle auf Multi-GPU-Setups mit System-RAM betreiben. Der --cpu-moe-Ansatz ermöglicht es, den Kontext weit über die VRAM-Grenzen hinaus zu skalieren, wenn auch mit reduzierter Geschwindigkeit. Für Coding-Agent-Workflows, bei denen Latenz weniger kritisch ist, kann dieser Kompromiss akzeptabel sein.

📖 Lese die vollständige Quelle: r/LocalLLaMA

Ad

👀 Siehe auch

Ein Zwei-Schritt-KI-Workflow für die Modernisierung von Legacy-Code
Tipps

Ein Zwei-Schritt-KI-Workflow für die Modernisierung von Legacy-Code

Ein Reddit-Beitrag skizziert einen zweistufigen 'Reverse Engineering'-Ansatz für den Einsatz von KI mit Legacy-Code: Zuerst wird die Geschäftslogik in ein technologieunabhängiges Business Requirement Document extrahiert, dann wird ein 'Master Architect'-Prompt verwendet, um von Grund auf mit modernen Best Practices neu aufzubauen.

OpenClawRadar
Claudes /btw-Befehl ermöglicht parallele Kommunikation während Aufgaben
Tipps

Claudes /btw-Befehl ermöglicht parallele Kommunikation während Aufgaben

Claude AI unterstützt jetzt einen /btw-Befehl, der es Nutzern ermöglicht, mit der KI zu kommunizieren, während sie aktiv an einer Aufgabe arbeitet. Dadurch können Fragen, zusätzliche Anweisungen oder Klarstellungen gestellt werden, ohne den aktuellen Arbeitsablauf zu unterbrechen.

OpenClawRadar
KV-Cache-Quantisierungsprobleme bei lokalen Codierungs-Agents bei hohen Kontextlängen
Tipps

KV-Cache-Quantisierungsprobleme bei lokalen Codierungs-Agents bei hohen Kontextlängen

Eine Reddit-Analyse identifiziert aggressive KV-Cache-Quantisierung als Ursache für unendliche Korrekturschleifen und fehlerhafte JSON-Ausgaben in lokalen Coding-Agents wie Qwen3-Coder und GLM 4.7 bei Kontextlängen über 30k. Gemischte Präzision oder reduzierte Kontextgröße werden als Workarounds empfohlen.

OpenClawRadar
🦀
Tipps

Claude + MCP Browser: Nutzer berichten von verbessertem Webzugriff

Ein Claude-Benutzer erklärt, wie das Anbinden von Claude an einen externen Browser über MCP es ihm ermöglichte, zuvor unzugängliche Seiten zu navigieren, und fragt sich, ob Claude die Modell-Token des Browsers nutzen kann.

OpenClawRadar