Mac Studio lokales LLM-Setup: GLM 5.1, Kimi K2.6 und was beim Codieren mit Claude Code funktioniert

Im r/LocalLLaMA-Subreddit veröffentlichte der Nutzer ezyz sein Mac Studio Lokal-LLM-Setup von Mai 2026, das auf einem M3 Ultra mit 512 GB Unified Memory läuft. Der Beitrag ist ein täglicher Stimmungscheck, keine rigorosen Benchmarks, aber voller praktischer Beobachtungen für alle, die große Modelle lokal für die Programmierung mit Claude Code betreiben.
Aktuelle aktive Modelle und Leistung
GLM 5.1 ist der größte Gewinner. Quantisiert passt es in ~380 GB mit maximalem Kontext und lässt Platz für andere Aufgaben. Die Decode-Geschwindigkeit beträgt ~17 t/s, Prefill ~190 t/s. Der Autor vertraut ihm bei Aufgabenkomplexität bis 6/10 (10 bedeutet 'Brownfield-Legacy-Codebasis + vage Spezifikation') für das Programmieren mit Claude Code. Es bewältigt eigenständige, halbwegs abgegrenzte Probleme konsistent, mit gelegentlicher API-Claude-Unterstützung für Planung oder Bereinigung.
Kimi K2.6 liegt auf dem gleichen Niveau – nicht offensichtlich besser oder schlechter –, ist aber größer. Selbst stark quantisiert benötigt es ~460 GB und lässt wenig Spielraum für andere Experimente. Es ist schneller: Prefill ~220 t/s, Decode ~21 t/s. Der Nachteil ist, dass man es entladen muss, um speicherintensive Experimente durchzuführen.
Minimax 2.7 beeindruckt durch seine Größe und Geschwindigkeit, aber der Autor bewertet es für Entwicklungsarbeit nur mit 3-4/10. Es hat eine unpassende Größe – GLM und Kimi punkten beim Ausliefern von nutzbarem Code, während kleinere Modelle bei Assistenzaufgaben wie 'fasse diese Websuche zusammen' gewinnen. Es bricht zudem schnell die Argumentation für einfache Anfragen ab.
Gemma 4 31B enttäuschte: Die MLX-Unterstützung ist einen Monat nach Veröffentlichung immer noch chaotisch. Das 31B dichte Modell ist nicht viel schneller als die großen MoEs, die offizielle Chat-Vorlage hat mehrere nicht behobene Fehler, und Patches trudeln immer noch ein. Der Autor plant, es erneut zu testen, sobald die MTP/Draft-Unterstützung stabilisiert ist.
Qwen 3.6 35B wurde durch Qwen 3.5 9B für multimodale Aufgaben wie das Übersetzen von Screenshots ersetzt – es ist gut genug und schnell genug und erledigt die Haiku-Hintergrundaufgaben von Claude Code ohne merklichen Unterschied, während es ~14 GB Speicher spart.
Ausstehender Support und zukünftige Beobachtungen
Weder Deepseek 4 Flash noch Mimo 2.5 sind offiziell in llama.cpp oder mlx-lm gelandet. Der Autor wird die PRs ausprobieren, wenn die Zeit es erlaubt. Er vermutet, dass die Pro-Versionen beider Modelle zu groß und langsam für den M3 Ultra sein werden – GLMs 40B aktive Parameter sind ungefähr seine Geduldgrenze.
Mit Spannung verfolgte Projekte:
- Exo und tinygrad für Mac + NVIDIA-Clustering und disaggregiertes Prefill
- Stable Dflash / DDtree / MTP-Unterstützung
- Neuartige Quantisierungsformate (paroquant, JANGTQ) – siehe llama.cpp PR #21038
- Lokale Musikgenerierung – Ace Step 1.5 ist 'fast gut', aber die Stimmen sind noch nicht da.
📖 Read the full source: r/LocalLLaMA
👀 Siehe auch

Claude KI führt Benutzer durch die Autoschiebedachreparatur mit Urethan-Glaskleber
Ein Benutzer reparierte ein Schiebedach eines Ford Fusion von 2012, das sich auf der Autobahn aufgerissen hatte, indem er Claudes Schritt-für-Schritt-Anleitung folgte, um Rost zu entfernen und Urethan-Glaskleber aufzutragen, und so einen Austausch für 1500 US-Dollar bei einem Auto im Wert von 5000 US-Dollar vermied.

KI-generierte 3D-druckbare Lochplatine aus handgezeichneter Skizze
Ein Entwickler nutzte Codex, um eine handgezeichnete Skizze in parametrische 3D-Modelle für ein Steckbrettspielzeug umzuwandeln, wobei nur zwei Maße angegeben wurden: 40 mm Lochabstand und 8 mm Stiftbreite. Das Repository enthält Python-Generatoren für sieben Spielsteine, vier Zahnräder und druckbare Bretter.

Immobilienentwickler's KI-Agent führt ersten Telefonanruf mit Kontext und Sprachstil durch
Ein Entwickler, der einen Multi-Agenten-Betrieb für Immobilien führt, berichtet, dass sein KI-Agent seinen ersten erfolgreichen Anruf getätigt hat, dabei den vollen Kontext über Geschäfte und Interessenten nutzte und den spezifischen Verkaufsansatz und Sprachstil des Entwicklers imitierte.

Erstellen einer personalisierten KI-Nachrichtenpipeline mit Claude
Ein Entwickler hat ein System aufgebaut, das täglich über 200 Artikel aus RSS-Feeds verarbeitet, sie anhand persönlicher Schlüsselwörter mit Claude Haiku bewertet, in Kategorien einteilt und für unter 5 US-Dollar pro Monat eine strukturierte Morgenzusammenfassung per E-Mail liefert.