Configuration locale de Mac Studio pour LLM : GLM 5.1, Kimi K2.6, et ce qui fonctionne pour le codage avec Claude Code

Sur r/LocalLLaMA, l'utilisateur ezyz a partagé sa configuration locale de LLM sur Mac Studio en mai 2026, tournant sur un M3 Ultra avec 512 Go de mémoire unifiée. Le post est un bilan quotidien, pas un benchmark rigoureux, mais il regorge d'observations pratiques pour quiconque exécute localement de gros modèles pour coder avec Claude Code.
Modèles actifs actuels et performances
GLM 5.1 est le grand gagnant. Quantifié, il tient dans ~380 Go avec un contexte maximum, laissant de la place pour d'autres tâches. La vitesse de décodage est d'environ 17 t/s, le préremplissage de ~190 t/s. L'auteur lui fait confiance jusqu'à 6/10 en complexité de tâche (10 étant 'codebase legacy brownfield + spécification vague') pour le codage via Claude Code. Il gère des problèmes autonomes et semi-délimités de manière cohérente, avec une aide occasionnelle de Claude API pour la planification ou le nettoyage.
Kimi K2.6 est dans la même catégorie — ni meilleur ni pire de manière évidente — mais plus gros. Même quantifié agressivement, il utilise ~460 Go, laissant peu de place pour d'autres expériences. Il est plus rapide : préremplissage ~220 t/s, décodage ~21 t/s. L'inconvénient est qu'il faut le décharger pour des expériences gourmandes en mémoire.
Minimax 2.7 est impressionnant pour sa taille et sa vitesse, mais l'auteur ne lui donne que 3-4/10 pour le travail de développement. Sa taille est gênante — GLM et Kimi gagnent pour fournir du code utilisable, tandis que les petits modèles gagnent pour les tâches d'assistant comme 'résume cette recherche web'. Il abandonne rapidement le raisonnement pour des requêtes simples.
Gemma 4 31B a déçu : le support MLX est encore désordonné un mois après la sortie. Le 31B dense n'est pas beaucoup plus rapide que les gros MoE, le template de chat officiel a plusieurs bugs non résolus, et les correctifs arrivent encore au compte-gouttes. L'auteur prévoit d'y revenir une fois que le support MTP/draft sera stabilisé.
Qwen 3.6 35B a été remplacé par Qwen 3.5 9B pour les tâches multimodales comme la traduction de captures d'écran — c'est assez bon et assez rapide, et gère les tâches de fond Haiku de Claude Code sans différence notable, tout en économisant ~14 Go de mémoire.
Support en attente et projets à suivre
Ni Deepseek 4 Flash ni Mimo 2.5 ne sont officiellement arrivés dans llama.cpp ou mlx-lm pour l'instant. L'auteur essaiera les PR quand le temps le permettra. Il suppose que les versions pro des deux seront trop grosses et trop lentes pour le M3 Ultra — les 40 paramètres actifs de GLM sont à peu près sa limite de patience.
Projets suivis avec impatience :
- Exo et tinygrad pour le clustering Mac + NVIDIA et le préremplissage désagrégé
- Support Stable Dflash / DDtree / MTP
- Nouveaux formats de quantification (paroquant, JANGTQ) — voir llama.cpp PR #21038
- Génération musicale locale — Ace Step 1.5 est 'presque bon' mais les voix ne sont pas encore au point.
📖 Lire la source complète : r/LocalLLaMA
👀 See Also

Automatiser un Podcast Quotidien d'Actualités sur l'IA avec Claude Code et Trois Agents IA
Un développeur a créé un pipeline de podcast entièrement automatisé en utilisant Claude Code pour orchestrer trois agents IA spécialisés qui sélectionnent les actualités sur l'IA, rédigent les scripts de narration, vérifient les faits et génèrent l'audio avec clonage vocal. Le système publie des épisodes quotidiens avec une intervention manuelle minimale.

Développeur compare l'IA Claude à une calculatrice moderne pour le flux de travail de codage
Un développeur avec 18 mois d'expérience sur un projet serverless Angular/AWS SPA/PWA rapporte utiliser Claude AI pour 90 % du codage assisté par IA, le décrivant comme une 'version du 21e siècle d'une calculatrice' qui le rend 10 fois plus productif malgré des résultats occasionnellement catastrophiques.

Neuberg : Terminal de Trading Multi-Marché Open-Source Construit avec Claude AI
Neuberg est un terminal de trading basé sur navigateur qui se connecte à des marchés comme Hyperliquid, Polymarket et Alpaca, construit avec Claude et Claude Code. Le processus de développement a révélé des forces spécifiques en matière de critique architecturale et de refactoring, ainsi que des limites dans la gestion de contexte long et des systèmes en temps réel.

Développeur crée une entreprise de conversion LaTeX en 7 jours en utilisant Claude Pro
Un développeur a utilisé Claude Pro pour créer The LaTeX Lab, un service convertissant des documents Word en LaTeX pour les chercheurs, en une semaine pour 23,60 $. Le projet comprenait une étude de marché, le développement d'un agent IA, la création d'un thème WordPress personnalisé et du contenu optimisé pour le SEO.