GLM 5 Mac M3 : Performances Codage Agentique Quantifié 4-bit

Benchmarks de performance et limitations

Un développeur a testé GLM 5 en utilisant la quantification 4 bits de MLX sur un Mac M3 avec 512 Go de RAM pour des tâches de codage agentique. Le modèle est décrit comme "assez utilisable" lorsque le contexte est maintenu en dessous d'environ 50 000 tokens, bien que significativement plus lent que les solutions basées sur des API comme Claude, notamment pendant le traitement des invites.

La performance se dégrade considérablement lorsque le contexte dépasse 50 000 tokens. Dans un test traitant 65 000 tokens, la première moitié s'est terminée en 8 minutes (67 tokens/seconde), tandis que la seconde moitié a pris 18 minutes supplémentaires, résultant en un taux global de 41 tokens/seconde. La génération de tokens reste plus rapide, estimée à 12-20 tokens/seconde pour des contextes plus importants.

Observations sur le flux de travail

L'utilisateur note qu'Opencode (le système de codage agentique) gère efficacement la génération de code multi-fichiers une fois qu'un plan est créé, produisant "des milliers de tokens de code à travers plusieurs fichiers en seulement quelques minutes avec un raisonnement entre les deux". Le traitement des invites prend généralement "quelques minutes" pour lire quelques centaines de lignes de code par fichier, avec environ 10 minutes au total réparties sur les sessions de planification.

La compaction dans Opencode "prend un certain temps car elle aime essentiellement retraiter tout le contexte". Avec une limite de contexte de 50 000 tokens, la compaction prend environ 5 minutes.

Configuration technique et attentes futures

Le test a été réalisé en utilisant LM Studio, qui peut ne pas fournir les dernières optimisations d'exécution. L'utilisateur suggère que "MLX ou même GGUF pourraient obtenir un traitement d'invite plus rapide à mesure que les environnements d'exécution sont mis à jour pour GLM 5, mais il ne deviendra probablement pas BEAUCOUP plus rapide que cela".

Cette configuration n'est pas recommandée pour les tâches nécessitant 70 000+ tokens de contexte en raison à la fois des limitations de taille de contexte et de la "lenteur insupportable" qui survient après avoir dépassé certains seuils pendant le traitement des invites.

📖 Lire la source complète : r/LocalLLaMA

GLM 5 sur Mac M3 : Observations de performance pour le codage agentique

Benchmarks de performance et limitations

Observations sur le flux de travail

Configuration technique et attentes futures

👀 See Also

alogin : Une passerelle de sécurité basée sur Go pour les agents d'IA avec intervention humaine

Plugin Pair Programmer Ajoute un Contexte d'Écran en Direct, Vocal et Audio à Claude Code

Moniteur d'utilisation de Claude : Widget CRT flottant pour Windows

Format d'Esprit Portable (PMF) : Spécification d'Agent Indépendante du Fournisseur avec 15 Agents Open-Source