GLM 5 no Mac M3: Observações de Desempenho para Codificação Autônoma

Benchmarks de Desempenho e Limitações
Um desenvolvedor testou o GLM 5 usando quantização 4-bit do MLX em um Mac M3 com 512GB de RAM para tarefas de codificação agentica. O modelo é descrito como "bastante utilizável" com o contexto mantido abaixo de aproximadamente 50.000 tokens, embora significativamente mais lento do que soluções baseadas em API como o Claude, especialmente durante o processamento de prompts.
O desempenho se degrada substancialmente quando o contexto excede 50 mil tokens. Em um teste processando 65 mil tokens, a primeira metade foi concluída em 8 minutos (67 tokens/segundo), enquanto a segunda metade levou 18 minutos adicionais, resultando em uma taxa geral de 41 tokens/segundo. A geração de tokens permanece mais rápida, estimada em 12-20 tokens/segundo em tamanhos de contexto maiores.
Observações de Fluxo de Trabalho
O usuário observa que o Opencode (o sistema de codificação agentica) lida com a geração de código em múltiplos arquivos de forma eficiente uma vez que um plano é criado, produzindo "milhares de tokens de código em vários arquivos em apenas alguns minutos com raciocínio entre eles". O processamento de prompts normalmente leva "alguns minutos" para ler algumas centenas de linhas de código por arquivo, com cerca de 10 minutos no total distribuídos entre sessões de planejamento.
A compactação no Opencode "realmente leva um tempo, pois basicamente reprocessa todo o contexto". Com um limite de contexto de 50 mil tokens, a compactação leva aproximadamente 5 minutos.
Configuração Técnica e Expectativas Futuras
O teste foi conduzido usando o LM Studio, que pode não fornecer as otimizações de runtime mais recentes. O usuário sugere que "o MLX ou mesmo o GGUF podem obter processamento de prompts mais rápido à medida que os runtimes são atualizados para o GLM 5, mas provavelmente não ficarão MUITO mais rápidos do que isso".
A configuração não é recomendada para tarefas que exigem 70 mil+ tokens no contexto devido tanto às limitações de tamanho de contexto quanto à "lentidão insuportável" que ocorre após exceder certos limites durante o processamento de prompts.
📖 Leia a fonte completa: r/LocalLLaMA
👀 See Also

Phaselock: Um Sistema de Controle de Agentes de IA Inspirado em Técnicas de Criação de Filhos
Phaselock é uma Habilidade de Agente de código aberto que implementa quatro mecanismos de controle para agentes de IA de programação: portas explícitas antes da ação, feedback imediato sobre erros, escolhas restritas e aplicação mecânica de regras. Funciona com Claude Code, Cursor, Windsurf e qualquer ferramenta que suporte hooks.

Tessera: Ambiente de Trabalho GUI de Código Aberto para Gerenciar Múltiplas Sessões do Claude Code
Tessera é uma GUI open-source que permite executar várias sessões do Claude Code lado a lado com isolamento de Git worktree, rastreamento de tarefas no estilo Kanban, diffs ao vivo e inspeção de atividades do agente.

Claudetop: Monitoramento de Custos em Tempo Real para Sessões de Código Claude
Claudetop é uma ferramenta semelhante ao htop que mostra gastos em tempo real, eficiência do cache e comparações de modelos para sessões do Claude Code. Ele fornece comandos de barra como /claudetop:stats e alertas inteligentes para marcos de custo e problemas de eficiência.

Executando Qwen3.6-35B-A3B-UD-Q5_K_XL localmente com VS Code Copilot no AMD R9700
Um usuário compartilha sua configuração funcional do llama.cpp para Qwen3.6-35B-A3B-UD-Q5_K_XL em uma única AMD R9700 com Vulkan, alcançando geração completa de site e testes Playwright do zero com mínima intervenção.