GLM 5 no Mac M3: Observações de Desempenho para Codificação Autônoma

✍️ OpenClawRadar📅 Publicado: February 23, 2026🔗 Source
GLM 5 no Mac M3: Observações de Desempenho para Codificação Autônoma
Ad

Benchmarks de Desempenho e Limitações

Um desenvolvedor testou o GLM 5 usando quantização 4-bit do MLX em um Mac M3 com 512GB de RAM para tarefas de codificação agentica. O modelo é descrito como "bastante utilizável" com o contexto mantido abaixo de aproximadamente 50.000 tokens, embora significativamente mais lento do que soluções baseadas em API como o Claude, especialmente durante o processamento de prompts.

O desempenho se degrada substancialmente quando o contexto excede 50 mil tokens. Em um teste processando 65 mil tokens, a primeira metade foi concluída em 8 minutos (67 tokens/segundo), enquanto a segunda metade levou 18 minutos adicionais, resultando em uma taxa geral de 41 tokens/segundo. A geração de tokens permanece mais rápida, estimada em 12-20 tokens/segundo em tamanhos de contexto maiores.

Observações de Fluxo de Trabalho

O usuário observa que o Opencode (o sistema de codificação agentica) lida com a geração de código em múltiplos arquivos de forma eficiente uma vez que um plano é criado, produzindo "milhares de tokens de código em vários arquivos em apenas alguns minutos com raciocínio entre eles". O processamento de prompts normalmente leva "alguns minutos" para ler algumas centenas de linhas de código por arquivo, com cerca de 10 minutos no total distribuídos entre sessões de planejamento.

A compactação no Opencode "realmente leva um tempo, pois basicamente reprocessa todo o contexto". Com um limite de contexto de 50 mil tokens, a compactação leva aproximadamente 5 minutos.

Ad

Configuração Técnica e Expectativas Futuras

O teste foi conduzido usando o LM Studio, que pode não fornecer as otimizações de runtime mais recentes. O usuário sugere que "o MLX ou mesmo o GGUF podem obter processamento de prompts mais rápido à medida que os runtimes são atualizados para o GLM 5, mas provavelmente não ficarão MUITO mais rápidos do que isso".

A configuração não é recomendada para tarefas que exigem 70 mil+ tokens no contexto devido tanto às limitações de tamanho de contexto quanto à "lentidão insuportável" que ocorre após exceder certos limites durante o processamento de prompts.

📖 Leia a fonte completa: r/LocalLLaMA

Ad

👀 See Also

Phaselock: Um Sistema de Controle de Agentes de IA Inspirado em Técnicas de Criação de Filhos
Tools

Phaselock: Um Sistema de Controle de Agentes de IA Inspirado em Técnicas de Criação de Filhos

Phaselock é uma Habilidade de Agente de código aberto que implementa quatro mecanismos de controle para agentes de IA de programação: portas explícitas antes da ação, feedback imediato sobre erros, escolhas restritas e aplicação mecânica de regras. Funciona com Claude Code, Cursor, Windsurf e qualquer ferramenta que suporte hooks.

OpenClawRadar
Tessera: Ambiente de Trabalho GUI de Código Aberto para Gerenciar Múltiplas Sessões do Claude Code
Tools

Tessera: Ambiente de Trabalho GUI de Código Aberto para Gerenciar Múltiplas Sessões do Claude Code

Tessera é uma GUI open-source que permite executar várias sessões do Claude Code lado a lado com isolamento de Git worktree, rastreamento de tarefas no estilo Kanban, diffs ao vivo e inspeção de atividades do agente.

OpenClawRadar
Claudetop: Monitoramento de Custos em Tempo Real para Sessões de Código Claude
Tools

Claudetop: Monitoramento de Custos em Tempo Real para Sessões de Código Claude

Claudetop é uma ferramenta semelhante ao htop que mostra gastos em tempo real, eficiência do cache e comparações de modelos para sessões do Claude Code. Ele fornece comandos de barra como /claudetop:stats e alertas inteligentes para marcos de custo e problemas de eficiência.

OpenClawRadar
Executando Qwen3.6-35B-A3B-UD-Q5_K_XL localmente com VS Code Copilot no AMD R9700
Tools

Executando Qwen3.6-35B-A3B-UD-Q5_K_XL localmente com VS Code Copilot no AMD R9700

Um usuário compartilha sua configuração funcional do llama.cpp para Qwen3.6-35B-A3B-UD-Q5_K_XL em uma única AMD R9700 com Vulkan, alcançando geração completa de site e testes Playwright do zero com mínima intervenção.

OpenClawRadar