MiniMax M2.7 Q8_0 128K auf 2x3090 mit CPU-Offloading – Benchmarks und Konfiguration aus der Praxis

In einem aktuellen r/LocalLLaMA-Beitrag berichtet ein Benutzer von seinen Erfahrungen mit dem MiniMax M2.7-Modell (in Q8_0-Quantisierung) bei 128K Kontext auf einem 2x3090-Setup mit 256 GB DDR4 und einer gebrauchten 10900X-CPU. Die größte Herausforderung: ein großes MoE-Modell mit unquantisiertem KV-Cache auf relativ schwacher Hardware für diese Klasse auszuführen.
Leistungszahlen
Der Benutzer berichtet:
- Prompt-Verarbeitung: ~50 Tokens pro Sekunde
- Token-Generierung: ~10 Tokens pro Sekunde
- Beschrieben als „sehr langsam, aber für Coding-Agent-Workflows nutzbar“
Konfiguration
Er verwendet ik-llama-cuda (einen llama.cpp-Fork) mit den folgenden Flags (aus seiner NixOS-Konfiguration):
${ik-llama-cuda}/bin/llama-server \
-m ${modelPath} \
--host 0.0.0.0 \
--port ${toString cfg.port} \
-c ${toString cfg.contextLength} \
-ngl 999 \
--cpu-moe \
-sm graph \
-fa on \
-t 16 \
-tb 16 \
-b 4096 \
-ub 4096 \
-np 1 \
-muge \
-ger \
--jinja \
--metrics \
--temp 1.0 \
--top-p 0.95 \
--top-k 40 \
--min-p 0.01Bemerkenswerte Flags:
--cpu-moe– verlagert MoE-Expertenberechnungen auf die CPU-sm graph– aktiviert grafikbasiertes Scheduling-fa on– Flash Attention-t 16/-tb 16– 16 Threads für Berechnung bzw. Batch-b 4096/-ub 4096– Batch- und Ubatch-Größe-muge– speichernutzungsgesteuertes Expertenladen (vermutlich)-ger– GPU-Experten-Routing
Kontext & Motivation
Der Benutzer gibt an, dass Q8_0 gewählt wurde, um „seltsames Verhalten“ bei niedrigeren Quantisierungen zu vermeiden. Er merkt an, dass das Draft-Modell des Modells für spekulative Dekodierung nicht für M2.7 veröffentlicht wurde, was die Geschwindigkeit hätte verbessern können. Ihm geht es hauptsächlich um Genauigkeit statt Geschwindigkeit, solange die Generierung nicht „buchstäblich den ganzen Tag“ dauert.
Fazit für Entwickler
Dies ist ein praktischer Datenpunkt für alle, die große MoE-Modelle auf Multi-GPU-Setups mit System-RAM betreiben. Der --cpu-moe-Ansatz ermöglicht es, den Kontext weit über die VRAM-Grenzen hinaus zu skalieren, wenn auch mit reduzierter Geschwindigkeit. Für Coding-Agent-Workflows, bei denen Latenz weniger kritisch ist, kann dieser Kompromiss akzeptabel sein.
📖 Lese die vollständige Quelle: r/LocalLLaMA
👀 Siehe auch

Ein Zwei-Schritt-KI-Workflow für die Modernisierung von Legacy-Code
Ein Reddit-Beitrag skizziert einen zweistufigen 'Reverse Engineering'-Ansatz für den Einsatz von KI mit Legacy-Code: Zuerst wird die Geschäftslogik in ein technologieunabhängiges Business Requirement Document extrahiert, dann wird ein 'Master Architect'-Prompt verwendet, um von Grund auf mit modernen Best Practices neu aufzubauen.

Claudes /btw-Befehl ermöglicht parallele Kommunikation während Aufgaben
Claude AI unterstützt jetzt einen /btw-Befehl, der es Nutzern ermöglicht, mit der KI zu kommunizieren, während sie aktiv an einer Aufgabe arbeitet. Dadurch können Fragen, zusätzliche Anweisungen oder Klarstellungen gestellt werden, ohne den aktuellen Arbeitsablauf zu unterbrechen.

KV-Cache-Quantisierungsprobleme bei lokalen Codierungs-Agents bei hohen Kontextlängen
Eine Reddit-Analyse identifiziert aggressive KV-Cache-Quantisierung als Ursache für unendliche Korrekturschleifen und fehlerhafte JSON-Ausgaben in lokalen Coding-Agents wie Qwen3-Coder und GLM 4.7 bei Kontextlängen über 30k. Gemischte Präzision oder reduzierte Kontextgröße werden als Workarounds empfohlen.
Claude + MCP Browser: Nutzer berichten von verbessertem Webzugriff
Ein Claude-Benutzer erklärt, wie das Anbinden von Claude an einen externen Browser über MCP es ihm ermöglichte, zuvor unzugängliche Seiten zu navigieren, und fragt sich, ob Claude die Modell-Token des Browsers nutzen kann.