Configuração local de LLM no Mac Studio: GLM 5.1, Kimi K2.6 e o que está funcionando para codificação com Claude Code

No r/LocalLLaMA, o usuário ezyz postou sua configuração local de LLM no Mac Studio em maio de 2026, rodando em um M3 Ultra com 512GB de memória unificada. O post é uma avaliação do dia a dia, não benchmarks rigorosos, mas cheio de observações práticas para quem executa modelos grandes localmente para codificação com Claude Code.
Modelos ativos atuais e desempenho
GLM 5.1 é o maior vencedor. Quantizado, cabe em ~380GB com contexto máximo, deixando espaço para outras tarefas. Velocidade de decodificação é ~17 t/s, prefill ~190 t/s. O autor confia nele até um 6/10 em complexidade de tarefa (10 sendo 'código legado brownfield + especificação vaga') para codificação via Claude Code. Ele lida consistentemente com problemas autocontidos e semiescopo, com ajuda ocasional da API Claude para planejamento ou limpeza.
Kimi K2.6 está no mesmo nível — não é obviamente melhor ou pior — mas é maior. Mesmo quantizado agressivamente, usa ~460GB, deixando pouco para outros experimentos. É mais rápido: prefill ~220 t/s, decode ~21 t/s. A dificuldade é precisar descarregá-lo para experimentos que exigem muita memória.
Minimax 2.7 é impressionante pelo seu tamanho e velocidade, mas o autor o avalia apenas 3-4/10 para trabalho de desenvolvimento. É um tamanho estranho — GLM e Kimi vencem no envio de código utilizável, enquanto modelos menores vencem em tarefas assistentes como 'resumir esta pesquisa na web'. Ele rapidamente desiste de raciocinar para solicitações simples.
Gemma 4 31B decepcionou: o suporte MLX ainda é bagunçado um mês após o lançamento. O denso 31B não é muito mais rápido que os grandes MoEs, o template oficial de chat tem vários bugs não resolvidos, e correções ainda estão chegando aos poucos. O autor planeja revisitar quando o suporte a MTP/draft se estabilizar.
Qwen 3.6 35B foi substituído pelo Qwen 3.5 9B para tarefas multimodais como traduzir capturas de tela — é bom o suficiente e rápido, e lida com tarefas de fundo do Haiku do Claude Code sem diferença perceptível, enquanto economiza ~14GB de memória.
Suporte pendente e futuro
Nem Deepseek 4 Flash nem Mimo 2.5 chegaram oficialmente ao llama.cpp ou mlx-lm ainda. O autor tentará os PRs quando o tempo permitir. Ele acha que as versões pro de ambos serão grandes e lentas demais para o M3 Ultra — os 40B de parâmetros ativos do GLM é aproximadamente seu limite de paciência.
Projetos acompanhados com expectativa:
- Exo e tinygrad para clustering Mac + NVIDIA e prefill desagregado
- Suporte estável Dflash / DDtree / MTP
- Novos formatos de quantização (paroquant, JANGTQ) — veja llama.cpp PR #21038
- Geração de música local — Ace Step 1.5 está 'quase bom', mas vozes ainda não estão lá.
📖 Leia a fonte original: r/LocalLLaMA
👀 See Also

Lições Práticas da Construção de um Agente Companheiro de IA Local Permanente
Um desenvolvedor compartilha insights de executar um agente de IA auto-hospedado em um Mac mini M4 por meses, abordando arquitetura de memória, otimização de prompt do sistema, embeddings locais, escadas de modelos e limites de iteração de ferramentas.

Claude IA Usado para Gerar Documento de Avaliação de Desempenho a partir do Histórico do Usuário
Um desenvolvedor usou a Claude AI para completar um documento de avaliação de desempenho de 3-4 páginas pedindo que 'complete esta documentação usando as informações que você tem sobre mim'. A IA gerou um documento detalhado em 5-6 minutos que incluía contribuições de trabalho que o usuário quase havia esquecido.

Relatório do Usuário OpenClaw: Configuração Técnica Funciona, Mas Autonomia Requer Problemas Reais
Um desenvolvedor construiu um agente OpenClaw ao vivo em um VPS com integração Stripe e Vercel em 5 dias, mas descobriu que o verdadeiro desafio não é a configuração — é ter problemas claros para o agente resolver de forma autônoma. O método OAuth de setup-token para assinaturas fixas agora está completamente bloqueado pela Anthropic, forçando o uso de pagamento por token.

Fundador Solo Constrói Plataforma de Análise de Notícias com Claude Code: Lições sobre Escalabilidade e Depuração
Um fundador solo sem formação em Ciência da Computação construiu The Daily Martian, uma plataforma de análise de notícias que examina mais de 40 veículos de comunicação usando Python/FastAPI, PostgreSQL, Redis e React/TypeScript, principalmente através do Claude Code. O desenvolvedor compartilha desafios específicos, incluindo perda de contexto, problemas de conexão com o banco de dados e estratégias de depuração.