Mac Studio M3 Ultra LLM : GLM 5.1, Kimi K2.6, Tests Codage

Sur r/LocalLLaMA, l'utilisateur ezyz a partagé sa configuration locale de LLM sur Mac Studio en mai 2026, tournant sur un M3 Ultra avec 512 Go de mémoire unifiée. Le post est un bilan quotidien, pas un benchmark rigoureux, mais il regorge d'observations pratiques pour quiconque exécute localement de gros modèles pour coder avec Claude Code.

Modèles actifs actuels et performances

GLM 5.1 est le grand gagnant. Quantifié, il tient dans ~380 Go avec un contexte maximum, laissant de la place pour d'autres tâches. La vitesse de décodage est d'environ 17 t/s, le préremplissage de ~190 t/s. L'auteur lui fait confiance jusqu'à 6/10 en complexité de tâche (10 étant 'codebase legacy brownfield + spécification vague') pour le codage via Claude Code. Il gère des problèmes autonomes et semi-délimités de manière cohérente, avec une aide occasionnelle de Claude API pour la planification ou le nettoyage.

Kimi K2.6 est dans la même catégorie — ni meilleur ni pire de manière évidente — mais plus gros. Même quantifié agressivement, il utilise ~460 Go, laissant peu de place pour d'autres expériences. Il est plus rapide : préremplissage ~220 t/s, décodage ~21 t/s. L'inconvénient est qu'il faut le décharger pour des expériences gourmandes en mémoire.

Minimax 2.7 est impressionnant pour sa taille et sa vitesse, mais l'auteur ne lui donne que 3-4/10 pour le travail de développement. Sa taille est gênante — GLM et Kimi gagnent pour fournir du code utilisable, tandis que les petits modèles gagnent pour les tâches d'assistant comme 'résume cette recherche web'. Il abandonne rapidement le raisonnement pour des requêtes simples.

Gemma 4 31B a déçu : le support MLX est encore désordonné un mois après la sortie. Le 31B dense n'est pas beaucoup plus rapide que les gros MoE, le template de chat officiel a plusieurs bugs non résolus, et les correctifs arrivent encore au compte-gouttes. L'auteur prévoit d'y revenir une fois que le support MTP/draft sera stabilisé.

Qwen 3.6 35B a été remplacé par Qwen 3.5 9B pour les tâches multimodales comme la traduction de captures d'écran — c'est assez bon et assez rapide, et gère les tâches de fond Haiku de Claude Code sans différence notable, tout en économisant ~14 Go de mémoire.

Support en attente et projets à suivre

Ni Deepseek 4 Flash ni Mimo 2.5 ne sont officiellement arrivés dans llama.cpp ou mlx-lm pour l'instant. L'auteur essaiera les PR quand le temps le permettra. Il suppose que les versions pro des deux seront trop grosses et trop lentes pour le M3 Ultra — les 40 paramètres actifs de GLM sont à peu près sa limite de patience.

Projets suivis avec impatience :

Exo et tinygrad pour le clustering Mac + NVIDIA et le préremplissage désagrégé
Support Stable Dflash / DDtree / MTP
Nouveaux formats de quantification (paroquant, JANGTQ) — voir llama.cpp PR #21038
Génération musicale locale — Ace Step 1.5 est 'presque bon' mais les voix ne sont pas encore au point.

📖 Lire la source complète : r/LocalLLaMA

Configuration locale de Mac Studio pour LLM : GLM 5.1, Kimi K2.6, et ce qui fonctionne pour le codage avec Claude Code

Modèles actifs actuels et performances

Support en attente et projets à suivre

👀 See Also

Création d'un réceptionniste IA pour un garage automobile : Pipeline RAG et intégration vocale

Claude Cowork aide à construire un livre de philosophie de 200 000 mots avec 13 rôles d'IA et une mémoire persistante

Utiliser Claude, Gemini et GPT pour des tâches de codage assistées par l'IA

Reproduction du harnais générateur-évaluateur d'Anthropic avec Kiro CLI : Construction d'un site web en 12 itérations