Mac Studio LLM-Setup: GLM 5.1, Kimi K2.6 & Claude Code

Im r/LocalLLaMA-Subreddit veröffentlichte der Nutzer ezyz sein Mac Studio Lokal-LLM-Setup von Mai 2026, das auf einem M3 Ultra mit 512 GB Unified Memory läuft. Der Beitrag ist ein täglicher Stimmungscheck, keine rigorosen Benchmarks, aber voller praktischer Beobachtungen für alle, die große Modelle lokal für die Programmierung mit Claude Code betreiben.

Aktuelle aktive Modelle und Leistung

GLM 5.1 ist der größte Gewinner. Quantisiert passt es in ~380 GB mit maximalem Kontext und lässt Platz für andere Aufgaben. Die Decode-Geschwindigkeit beträgt ~17 t/s, Prefill ~190 t/s. Der Autor vertraut ihm bei Aufgabenkomplexität bis 6/10 (10 bedeutet 'Brownfield-Legacy-Codebasis + vage Spezifikation') für das Programmieren mit Claude Code. Es bewältigt eigenständige, halbwegs abgegrenzte Probleme konsistent, mit gelegentlicher API-Claude-Unterstützung für Planung oder Bereinigung.

Kimi K2.6 liegt auf dem gleichen Niveau – nicht offensichtlich besser oder schlechter –, ist aber größer. Selbst stark quantisiert benötigt es ~460 GB und lässt wenig Spielraum für andere Experimente. Es ist schneller: Prefill ~220 t/s, Decode ~21 t/s. Der Nachteil ist, dass man es entladen muss, um speicherintensive Experimente durchzuführen.

Minimax 2.7 beeindruckt durch seine Größe und Geschwindigkeit, aber der Autor bewertet es für Entwicklungsarbeit nur mit 3-4/10. Es hat eine unpassende Größe – GLM und Kimi punkten beim Ausliefern von nutzbarem Code, während kleinere Modelle bei Assistenzaufgaben wie 'fasse diese Websuche zusammen' gewinnen. Es bricht zudem schnell die Argumentation für einfache Anfragen ab.

Gemma 4 31B enttäuschte: Die MLX-Unterstützung ist einen Monat nach Veröffentlichung immer noch chaotisch. Das 31B dichte Modell ist nicht viel schneller als die großen MoEs, die offizielle Chat-Vorlage hat mehrere nicht behobene Fehler, und Patches trudeln immer noch ein. Der Autor plant, es erneut zu testen, sobald die MTP/Draft-Unterstützung stabilisiert ist.

Qwen 3.6 35B wurde durch Qwen 3.5 9B für multimodale Aufgaben wie das Übersetzen von Screenshots ersetzt – es ist gut genug und schnell genug und erledigt die Haiku-Hintergrundaufgaben von Claude Code ohne merklichen Unterschied, während es ~14 GB Speicher spart.

Ausstehender Support und zukünftige Beobachtungen

Weder Deepseek 4 Flash noch Mimo 2.5 sind offiziell in llama.cpp oder mlx-lm gelandet. Der Autor wird die PRs ausprobieren, wenn die Zeit es erlaubt. Er vermutet, dass die Pro-Versionen beider Modelle zu groß und langsam für den M3 Ultra sein werden – GLMs 40B aktive Parameter sind ungefähr seine Geduldgrenze.

Mit Spannung verfolgte Projekte:

Exo und tinygrad für Mac + NVIDIA-Clustering und disaggregiertes Prefill
Stable Dflash / DDtree / MTP-Unterstützung
Neuartige Quantisierungsformate (paroquant, JANGTQ) – siehe llama.cpp PR #21038
Lokale Musikgenerierung – Ace Step 1.5 ist 'fast gut', aber die Stimmen sind noch nicht da.

📖 Read the full source: r/LocalLLaMA

Mac Studio lokales LLM-Setup: GLM 5.1, Kimi K2.6 und was beim Codieren mit Claude Code funktioniert

Aktuelle aktive Modelle und Leistung

Ausstehender Support und zukünftige Beobachtungen

👀 Siehe auch

Verwendung von KI zum Portieren eines Wi-Fi-Treibers von Linux zu FreeBSD: Eine Fallstudie

OpenClaw auf Synology NAS: Telegram-Mediaanfragen und Containerverwaltung

OpenClaw-Benutzer kämpfen mit der KI-Agenten-Automatisierung nach erfolgreicher Claude-Code-Pipeline

Benutzer meldet $868 AUD OpenClaw-Rechnung, doppelte Sitzungen und Defekte nach Updates