Qwen3.5-122B-A10B-MINT-MLX: 39,58 Tokens/s auf M5 Pro

Lokale LLM-Leistung auf Apple Silicon

Ein Reddit-Benutzer hat seine Erfahrungen mit der lokalen Ausführung des Qwen3.5-122B-A10B-MINT-MLX-Modells auf einem M5 Pro mit 64 GB RAM geteilt. Das Setup zeigt, dass große Sprachmodelle mit der richtigen Konfiguration effektiv auf Consumer-Hardware laufen können.

Konfigurationsdetails

Der Benutzer erzielte eine reibungslose Leistung mit spezifischen Terminalbefehlen für die VRAM-Zuweisung:

sysctl iogpu.unified_memory_limit_percentage
sudo sysctl iogpu.wired_limit_mb=61440

In LM Studio setzte er das Kontextfenster auf 16384 Token. Mit dieser Konfiguration hielt das System eine stabile Leistung aufrecht, während Safari mit mehreren Tabs, Messages und Activity Monitor gleichzeitig liefen.

Leistungsbenchmarks

Das Qwen3.5-122B-A10B-MINT-MLX-Modell lieferte:

Zeit bis zum ersten Token: 0,86 Sekunden
Token-Generierungsgeschwindigkeit: 39,58 Token/Sekunde

Der Benutzer merkte an, dass das Modell „eine Reihe von Rätseln korrekt löste und ein bisschen Vibe-Coding machte“, ohne Beschwerden über die 3-Bit-MINT-Quantisierung. Das einzige Problem trat auf, als sich das Kontextfenster bei einer VRAM-Nutzung von etwa 59 GB füllte und zu einem Systemabsturz führte.

Vergleich mit anderen Modellen

Der Benutzer testete auch „Qwen3.5 40B Claude 4.6 Opus Deckard Heretic Uncensored Thinking Mxfp8“, das er genauer als das 122B-Modell fand, aber deutlich langsamer war:

Token-Generierungsgeschwindigkeit: 6,93 Token/Sekunde
Die Prompt-Verarbeitung blieb trotz langsamerer Generierung schnell

Dies zeigt den Kompromiss zwischen Modellgröße, Quantisierung und Inferenzgeschwindigkeit, dem Entwickler bei der Auswahl lokaler LLM-Konfigurationen gegenüberstehen.

📖 Read the full source: r/LocalLLaMA

Qwen3.5-122B-A10B-MINT-MLX läuft reibungslos auf dem M5 Pro mit 64 GB RAM.

Lokale LLM-Leistung auf Apple Silicon

Konfigurationsdetails

Leistungsbenchmarks

Vergleich mit anderen Modellen

👀 Siehe auch

Claude Pro-Benutzer dokumentieren chronische Schnittstellen- und Workflow-Probleme

Reddit-Nutzer teilt bizarre Geschichte über die Übertragbarkeit von KI-Personas aus einem Vanity-Fair-Artikel.

OpenClaw-Experiment: KI-Agenten wählen Stille, um das Signal-Rausch-Verhältnis zu verbessern

Anthropics Geschäftsstrategie: API-Einnahmen führen zu Einschränkungen bei der Verbraucherstufe