LLM Local no Mac Studio: GLM 5.1, Kimi K2.6 e Claude Code

No r/LocalLLaMA, o usuário ezyz postou sua configuração local de LLM no Mac Studio em maio de 2026, rodando em um M3 Ultra com 512GB de memória unificada. O post é uma avaliação do dia a dia, não benchmarks rigorosos, mas cheio de observações práticas para quem executa modelos grandes localmente para codificação com Claude Code.

Modelos ativos atuais e desempenho

GLM 5.1 é o maior vencedor. Quantizado, cabe em ~380GB com contexto máximo, deixando espaço para outras tarefas. Velocidade de decodificação é ~17 t/s, prefill ~190 t/s. O autor confia nele até um 6/10 em complexidade de tarefa (10 sendo 'código legado brownfield + especificação vaga') para codificação via Claude Code. Ele lida consistentemente com problemas autocontidos e semiescopo, com ajuda ocasional da API Claude para planejamento ou limpeza.

Kimi K2.6 está no mesmo nível — não é obviamente melhor ou pior — mas é maior. Mesmo quantizado agressivamente, usa ~460GB, deixando pouco para outros experimentos. É mais rápido: prefill ~220 t/s, decode ~21 t/s. A dificuldade é precisar descarregá-lo para experimentos que exigem muita memória.

Minimax 2.7 é impressionante pelo seu tamanho e velocidade, mas o autor o avalia apenas 3-4/10 para trabalho de desenvolvimento. É um tamanho estranho — GLM e Kimi vencem no envio de código utilizável, enquanto modelos menores vencem em tarefas assistentes como 'resumir esta pesquisa na web'. Ele rapidamente desiste de raciocinar para solicitações simples.

Gemma 4 31B decepcionou: o suporte MLX ainda é bagunçado um mês após o lançamento. O denso 31B não é muito mais rápido que os grandes MoEs, o template oficial de chat tem vários bugs não resolvidos, e correções ainda estão chegando aos poucos. O autor planeja revisitar quando o suporte a MTP/draft se estabilizar.

Qwen 3.6 35B foi substituído pelo Qwen 3.5 9B para tarefas multimodais como traduzir capturas de tela — é bom o suficiente e rápido, e lida com tarefas de fundo do Haiku do Claude Code sem diferença perceptível, enquanto economiza ~14GB de memória.

Suporte pendente e futuro

Nem Deepseek 4 Flash nem Mimo 2.5 chegaram oficialmente ao llama.cpp ou mlx-lm ainda. O autor tentará os PRs quando o tempo permitir. Ele acha que as versões pro de ambos serão grandes e lentas demais para o M3 Ultra — os 40B de parâmetros ativos do GLM é aproximadamente seu limite de paciência.

Projetos acompanhados com expectativa:

Exo e tinygrad para clustering Mac + NVIDIA e prefill desagregado
Suporte estável Dflash / DDtree / MTP
Novos formatos de quantização (paroquant, JANGTQ) — veja llama.cpp PR #21038
Geração de música local — Ace Step 1.5 está 'quase bom', mas vozes ainda não estão lá.

📖 Leia a fonte original: r/LocalLLaMA

Configuração local de LLM no Mac Studio: GLM 5.1, Kimi K2.6 e o que está funcionando para codificação com Claude Code

Modelos ativos atuais e desempenho

Suporte pendente e futuro

👀 See Also

Reconstrução do Algoritmo de Trading: De Taxa de Acerto para Est. PoP e Pré-filtragem Inteligente

Implantando Recepcionistas de IA para Empresas Locais com OpenClaw e Retell AI

Agentes de IA Constroem Barreiras de Segurança de Forma Independente em Experimento Aberto

Usando o Claude para Fazer Root no Aspirador Trifo Lucy e Construir um Servidor de Rede Local