Mac Studio lokales LLM-Setup: GLM 5.1, Kimi K2.6 und was beim Codieren mit Claude Code funktioniert

✍️ OpenClawRadar📅 Veröffentlicht: 7. Mai 2026🔗 Source
Mac Studio lokales LLM-Setup: GLM 5.1, Kimi K2.6 und was beim Codieren mit Claude Code funktioniert
Ad

Im r/LocalLLaMA-Subreddit veröffentlichte der Nutzer ezyz sein Mac Studio Lokal-LLM-Setup von Mai 2026, das auf einem M3 Ultra mit 512 GB Unified Memory läuft. Der Beitrag ist ein täglicher Stimmungscheck, keine rigorosen Benchmarks, aber voller praktischer Beobachtungen für alle, die große Modelle lokal für die Programmierung mit Claude Code betreiben.

Aktuelle aktive Modelle und Leistung

GLM 5.1 ist der größte Gewinner. Quantisiert passt es in ~380 GB mit maximalem Kontext und lässt Platz für andere Aufgaben. Die Decode-Geschwindigkeit beträgt ~17 t/s, Prefill ~190 t/s. Der Autor vertraut ihm bei Aufgabenkomplexität bis 6/10 (10 bedeutet 'Brownfield-Legacy-Codebasis + vage Spezifikation') für das Programmieren mit Claude Code. Es bewältigt eigenständige, halbwegs abgegrenzte Probleme konsistent, mit gelegentlicher API-Claude-Unterstützung für Planung oder Bereinigung.

Kimi K2.6 liegt auf dem gleichen Niveau – nicht offensichtlich besser oder schlechter –, ist aber größer. Selbst stark quantisiert benötigt es ~460 GB und lässt wenig Spielraum für andere Experimente. Es ist schneller: Prefill ~220 t/s, Decode ~21 t/s. Der Nachteil ist, dass man es entladen muss, um speicherintensive Experimente durchzuführen.

Minimax 2.7 beeindruckt durch seine Größe und Geschwindigkeit, aber der Autor bewertet es für Entwicklungsarbeit nur mit 3-4/10. Es hat eine unpassende Größe – GLM und Kimi punkten beim Ausliefern von nutzbarem Code, während kleinere Modelle bei Assistenzaufgaben wie 'fasse diese Websuche zusammen' gewinnen. Es bricht zudem schnell die Argumentation für einfache Anfragen ab.

Gemma 4 31B enttäuschte: Die MLX-Unterstützung ist einen Monat nach Veröffentlichung immer noch chaotisch. Das 31B dichte Modell ist nicht viel schneller als die großen MoEs, die offizielle Chat-Vorlage hat mehrere nicht behobene Fehler, und Patches trudeln immer noch ein. Der Autor plant, es erneut zu testen, sobald die MTP/Draft-Unterstützung stabilisiert ist.

Qwen 3.6 35B wurde durch Qwen 3.5 9B für multimodale Aufgaben wie das Übersetzen von Screenshots ersetzt – es ist gut genug und schnell genug und erledigt die Haiku-Hintergrundaufgaben von Claude Code ohne merklichen Unterschied, während es ~14 GB Speicher spart.

Ad

Ausstehender Support und zukünftige Beobachtungen

Weder Deepseek 4 Flash noch Mimo 2.5 sind offiziell in llama.cpp oder mlx-lm gelandet. Der Autor wird die PRs ausprobieren, wenn die Zeit es erlaubt. Er vermutet, dass die Pro-Versionen beider Modelle zu groß und langsam für den M3 Ultra sein werden – GLMs 40B aktive Parameter sind ungefähr seine Geduldgrenze.

Mit Spannung verfolgte Projekte:

  • Exo und tinygrad für Mac + NVIDIA-Clustering und disaggregiertes Prefill
  • Stable Dflash / DDtree / MTP-Unterstützung
  • Neuartige Quantisierungsformate (paroquant, JANGTQ) – siehe llama.cpp PR #21038
  • Lokale Musikgenerierung – Ace Step 1.5 ist 'fast gut', aber die Stimmen sind noch nicht da.

📖 Read the full source: r/LocalLLaMA

Ad

👀 Siehe auch

Claude KI führt Benutzer durch die Autoschiebedachreparatur mit Urethan-Glaskleber
Anwendungsfälle

Claude KI führt Benutzer durch die Autoschiebedachreparatur mit Urethan-Glaskleber

Ein Benutzer reparierte ein Schiebedach eines Ford Fusion von 2012, das sich auf der Autobahn aufgerissen hatte, indem er Claudes Schritt-für-Schritt-Anleitung folgte, um Rost zu entfernen und Urethan-Glaskleber aufzutragen, und so einen Austausch für 1500 US-Dollar bei einem Auto im Wert von 5000 US-Dollar vermied.

OpenClawRadar
KI-generierte 3D-druckbare Lochplatine aus handgezeichneter Skizze
Anwendungsfälle

KI-generierte 3D-druckbare Lochplatine aus handgezeichneter Skizze

Ein Entwickler nutzte Codex, um eine handgezeichnete Skizze in parametrische 3D-Modelle für ein Steckbrettspielzeug umzuwandeln, wobei nur zwei Maße angegeben wurden: 40 mm Lochabstand und 8 mm Stiftbreite. Das Repository enthält Python-Generatoren für sieben Spielsteine, vier Zahnräder und druckbare Bretter.

OpenClawRadar
Immobilienentwickler's KI-Agent führt ersten Telefonanruf mit Kontext und Sprachstil durch
Anwendungsfälle

Immobilienentwickler's KI-Agent führt ersten Telefonanruf mit Kontext und Sprachstil durch

Ein Entwickler, der einen Multi-Agenten-Betrieb für Immobilien führt, berichtet, dass sein KI-Agent seinen ersten erfolgreichen Anruf getätigt hat, dabei den vollen Kontext über Geschäfte und Interessenten nutzte und den spezifischen Verkaufsansatz und Sprachstil des Entwicklers imitierte.

OpenClawRadar
Erstellen einer personalisierten KI-Nachrichtenpipeline mit Claude
Anwendungsfälle

Erstellen einer personalisierten KI-Nachrichtenpipeline mit Claude

Ein Entwickler hat ein System aufgebaut, das täglich über 200 Artikel aus RSS-Feeds verarbeitet, sie anhand persönlicher Schlüsselwörter mit Claude Haiku bewertet, in Kategorien einteilt und für unter 5 US-Dollar pro Monat eine strukturierte Morgenzusammenfassung per E-Mail liefert.

OpenClawRadar