GLM 5 no Mac M3: 4-bit MLX, Desempenho em Codificação Autônoma

Benchmarks de Desempenho e Limitações

Um desenvolvedor testou o GLM 5 usando quantização 4-bit do MLX em um Mac M3 com 512GB de RAM para tarefas de codificação agentica. O modelo é descrito como "bastante utilizável" com o contexto mantido abaixo de aproximadamente 50.000 tokens, embora significativamente mais lento do que soluções baseadas em API como o Claude, especialmente durante o processamento de prompts.

O desempenho se degrada substancialmente quando o contexto excede 50 mil tokens. Em um teste processando 65 mil tokens, a primeira metade foi concluída em 8 minutos (67 tokens/segundo), enquanto a segunda metade levou 18 minutos adicionais, resultando em uma taxa geral de 41 tokens/segundo. A geração de tokens permanece mais rápida, estimada em 12-20 tokens/segundo em tamanhos de contexto maiores.

Observações de Fluxo de Trabalho

O usuário observa que o Opencode (o sistema de codificação agentica) lida com a geração de código em múltiplos arquivos de forma eficiente uma vez que um plano é criado, produzindo "milhares de tokens de código em vários arquivos em apenas alguns minutos com raciocínio entre eles". O processamento de prompts normalmente leva "alguns minutos" para ler algumas centenas de linhas de código por arquivo, com cerca de 10 minutos no total distribuídos entre sessões de planejamento.

A compactação no Opencode "realmente leva um tempo, pois basicamente reprocessa todo o contexto". Com um limite de contexto de 50 mil tokens, a compactação leva aproximadamente 5 minutos.

Configuração Técnica e Expectativas Futuras

O teste foi conduzido usando o LM Studio, que pode não fornecer as otimizações de runtime mais recentes. O usuário sugere que "o MLX ou mesmo o GGUF podem obter processamento de prompts mais rápido à medida que os runtimes são atualizados para o GLM 5, mas provavelmente não ficarão MUITO mais rápidos do que isso".

A configuração não é recomendada para tarefas que exigem 70 mil+ tokens no contexto devido tanto às limitações de tamanho de contexto quanto à "lentidão insuportável" que ocorre após exceder certos limites durante o processamento de prompts.

📖 Leia a fonte completa: r/LocalLLaMA

GLM 5 no Mac M3: Observações de Desempenho para Codificação Autônoma

Benchmarks de Desempenho e Limitações

Observações de Fluxo de Trabalho

Configuração Técnica e Expectativas Futuras

👀 See Also

Aplicativo gratuito da barra de menu do macOS exibe estatísticas de uso em tempo real do Claude por meio da descriptografia de cookies SQLite

Ferramenta de Vigilância de Código Aberto Aborda Problema de Identidade de Agente no Ecossistema OpenClaw

Análise Codeflash: 118 Bugs de Desempenho Encontrados em Dois PRs Escritos com Claude Code

Pesquisadores de Stanford Lançam OpenJarvis: Uma Estrutura Local-First para Agentes de IA em Dispositivos