Configuração local de LLM no Mac Studio: GLM 5.1, Kimi K2.6 e o que está funcionando para codificação com Claude Code

✍️ OpenClawRadar📅 Publicado: May 7, 2026🔗 Source
Configuração local de LLM no Mac Studio: GLM 5.1, Kimi K2.6 e o que está funcionando para codificação com Claude Code
Ad

No r/LocalLLaMA, o usuário ezyz postou sua configuração local de LLM no Mac Studio em maio de 2026, rodando em um M3 Ultra com 512GB de memória unificada. O post é uma avaliação do dia a dia, não benchmarks rigorosos, mas cheio de observações práticas para quem executa modelos grandes localmente para codificação com Claude Code.

Modelos ativos atuais e desempenho

GLM 5.1 é o maior vencedor. Quantizado, cabe em ~380GB com contexto máximo, deixando espaço para outras tarefas. Velocidade de decodificação é ~17 t/s, prefill ~190 t/s. O autor confia nele até um 6/10 em complexidade de tarefa (10 sendo 'código legado brownfield + especificação vaga') para codificação via Claude Code. Ele lida consistentemente com problemas autocontidos e semiescopo, com ajuda ocasional da API Claude para planejamento ou limpeza.

Kimi K2.6 está no mesmo nível — não é obviamente melhor ou pior — mas é maior. Mesmo quantizado agressivamente, usa ~460GB, deixando pouco para outros experimentos. É mais rápido: prefill ~220 t/s, decode ~21 t/s. A dificuldade é precisar descarregá-lo para experimentos que exigem muita memória.

Minimax 2.7 é impressionante pelo seu tamanho e velocidade, mas o autor o avalia apenas 3-4/10 para trabalho de desenvolvimento. É um tamanho estranho — GLM e Kimi vencem no envio de código utilizável, enquanto modelos menores vencem em tarefas assistentes como 'resumir esta pesquisa na web'. Ele rapidamente desiste de raciocinar para solicitações simples.

Gemma 4 31B decepcionou: o suporte MLX ainda é bagunçado um mês após o lançamento. O denso 31B não é muito mais rápido que os grandes MoEs, o template oficial de chat tem vários bugs não resolvidos, e correções ainda estão chegando aos poucos. O autor planeja revisitar quando o suporte a MTP/draft se estabilizar.

Qwen 3.6 35B foi substituído pelo Qwen 3.5 9B para tarefas multimodais como traduzir capturas de tela — é bom o suficiente e rápido, e lida com tarefas de fundo do Haiku do Claude Code sem diferença perceptível, enquanto economiza ~14GB de memória.

Ad

Suporte pendente e futuro

Nem Deepseek 4 Flash nem Mimo 2.5 chegaram oficialmente ao llama.cpp ou mlx-lm ainda. O autor tentará os PRs quando o tempo permitir. Ele acha que as versões pro de ambos serão grandes e lentas demais para o M3 Ultra — os 40B de parâmetros ativos do GLM é aproximadamente seu limite de paciência.

Projetos acompanhados com expectativa:

  • Exo e tinygrad para clustering Mac + NVIDIA e prefill desagregado
  • Suporte estável Dflash / DDtree / MTP
  • Novos formatos de quantização (paroquant, JANGTQ) — veja llama.cpp PR #21038
  • Geração de música local — Ace Step 1.5 está 'quase bom', mas vozes ainda não estão lá.

📖 Leia a fonte original: r/LocalLLaMA

Ad

👀 See Also

Lições Práticas da Construção de um Agente Companheiro de IA Local Permanente
Use Cases

Lições Práticas da Construção de um Agente Companheiro de IA Local Permanente

Um desenvolvedor compartilha insights de executar um agente de IA auto-hospedado em um Mac mini M4 por meses, abordando arquitetura de memória, otimização de prompt do sistema, embeddings locais, escadas de modelos e limites de iteração de ferramentas.

OpenClawRadar
Claude IA Usado para Gerar Documento de Avaliação de Desempenho a partir do Histórico do Usuário
Use Cases

Claude IA Usado para Gerar Documento de Avaliação de Desempenho a partir do Histórico do Usuário

Um desenvolvedor usou a Claude AI para completar um documento de avaliação de desempenho de 3-4 páginas pedindo que 'complete esta documentação usando as informações que você tem sobre mim'. A IA gerou um documento detalhado em 5-6 minutos que incluía contribuições de trabalho que o usuário quase havia esquecido.

OpenClawRadar
Relatório do Usuário OpenClaw: Configuração Técnica Funciona, Mas Autonomia Requer Problemas Reais
Use Cases

Relatório do Usuário OpenClaw: Configuração Técnica Funciona, Mas Autonomia Requer Problemas Reais

Um desenvolvedor construiu um agente OpenClaw ao vivo em um VPS com integração Stripe e Vercel em 5 dias, mas descobriu que o verdadeiro desafio não é a configuração — é ter problemas claros para o agente resolver de forma autônoma. O método OAuth de setup-token para assinaturas fixas agora está completamente bloqueado pela Anthropic, forçando o uso de pagamento por token.

OpenClawRadar
Fundador Solo Constrói Plataforma de Análise de Notícias com Claude Code: Lições sobre Escalabilidade e Depuração
Use Cases

Fundador Solo Constrói Plataforma de Análise de Notícias com Claude Code: Lições sobre Escalabilidade e Depuração

Um fundador solo sem formação em Ciência da Computação construiu The Daily Martian, uma plataforma de análise de notícias que examina mais de 40 veículos de comunicação usando Python/FastAPI, PostgreSQL, Redis e React/TypeScript, principalmente através do Claude Code. O desenvolvedor compartilha desafios específicos, incluindo perda de contexto, problemas de conexão com o banco de dados e estratégias de depuração.

OpenClawRadar