GLM 5 sur Mac M3 : Observations de performance pour le codage agentique

✍️ OpenClawRadar📅 Publié: February 23, 2026🔗 Source
GLM 5 sur Mac M3 : Observations de performance pour le codage agentique
Ad

Benchmarks de performance et limitations

Un développeur a testé GLM 5 en utilisant la quantification 4 bits de MLX sur un Mac M3 avec 512 Go de RAM pour des tâches de codage agentique. Le modèle est décrit comme "assez utilisable" lorsque le contexte est maintenu en dessous d'environ 50 000 tokens, bien que significativement plus lent que les solutions basées sur des API comme Claude, notamment pendant le traitement des invites.

La performance se dégrade considérablement lorsque le contexte dépasse 50 000 tokens. Dans un test traitant 65 000 tokens, la première moitié s'est terminée en 8 minutes (67 tokens/seconde), tandis que la seconde moitié a pris 18 minutes supplémentaires, résultant en un taux global de 41 tokens/seconde. La génération de tokens reste plus rapide, estimée à 12-20 tokens/seconde pour des contextes plus importants.

Observations sur le flux de travail

L'utilisateur note qu'Opencode (le système de codage agentique) gère efficacement la génération de code multi-fichiers une fois qu'un plan est créé, produisant "des milliers de tokens de code à travers plusieurs fichiers en seulement quelques minutes avec un raisonnement entre les deux". Le traitement des invites prend généralement "quelques minutes" pour lire quelques centaines de lignes de code par fichier, avec environ 10 minutes au total réparties sur les sessions de planification.

La compaction dans Opencode "prend un certain temps car elle aime essentiellement retraiter tout le contexte". Avec une limite de contexte de 50 000 tokens, la compaction prend environ 5 minutes.

Ad

Configuration technique et attentes futures

Le test a été réalisé en utilisant LM Studio, qui peut ne pas fournir les dernières optimisations d'exécution. L'utilisateur suggère que "MLX ou même GGUF pourraient obtenir un traitement d'invite plus rapide à mesure que les environnements d'exécution sont mis à jour pour GLM 5, mais il ne deviendra probablement pas BEAUCOUP plus rapide que cela".

Cette configuration n'est pas recommandée pour les tâches nécessitant 70 000+ tokens de contexte en raison à la fois des limitations de taille de contexte et de la "lenteur insupportable" qui survient après avoir dépassé certains seuils pendant le traitement des invites.

📖 Lire la source complète : r/LocalLLaMA

Ad

👀 See Also

Les plugins LM Studio ajoutent l'analyse d'images web pour les LLM dotés de capacités visuelles.
Tools

Les plugins LM Studio ajoutent l'analyse d'images web pour les LLM dotés de capacités visuelles.

Un développeur a créé des plugins pour LM Studio qui permettent aux LLM dotés de capacités visuelles de récupérer et d'analyser des images depuis le web, avec un traitement d'image automatique et un enchaînement d'outils. Les plugins fonctionnent avec des modèles comme Qwen 3.5 9b/27b et incluent des fonctionnalités mises à jour pour Duck-Duck-Go et Visiter le site web.

OpenClawRadar
Le modèle Qwen3-0.6B affiné surpasse l'enseignant de 120B sur l'appel de fonction structuré.
Tools

Le modèle Qwen3-0.6B affiné surpasse l'enseignant de 120B sur l'appel de fonction structuré.

Distil Labs a publié un pipeline de bout en bout qui affine un modèle Qwen3-0.6B pour atteindre 79,5 % de correspondance exacte sur l'appel de fonctions pour la domotique IoT, surpassant un modèle enseignant de 120B de 29 points. Le pipeline utilise des traces de production pour générer des données d'entraînement synthétiques sans annotation manuelle.

OpenClawRadar
Engram v1.0.0 : Mémoire persistante pour les LLM locaux via un graphe de connaissances
Tools

Engram v1.0.0 : Mémoire persistante pour les LLM locaux via un graphe de connaissances

Engram est un binaire unique qui fournit une mémoire persistante pour les LLM locaux grâce à un système de graphe de connaissances. Il inclut un serveur MCP pour l'intégration avec Claude Code, Cursor et Windsurf, stocke toutes les données dans un seul fichier .brain et fonctionne entièrement hors ligne.

OpenClawRadar
Gemma Gem : Agent IA embarqué pour l'automatisation de navigateur via WebGPU
Tools

Gemma Gem : Agent IA embarqué pour l'automatisation de navigateur via WebGPU

Gemma Gem est une extension Chrome qui exécute le modèle Gemma 4 de Google (2B ou 4B) entièrement sur l'appareil en utilisant WebGPU, sans clés API ni dépendances cloud. Elle fournit des outils pour lire le contenu des pages, capturer des écrans, cliquer sur des éléments, saisir du texte, faire défiler et exécuter du JavaScript via une interface de chat.

OpenClawRadar