GLM 5 auf Mac M3: Leistung & Tipps für agentenbasiertes Programmieren

Leistungsbenchmarks und Einschränkungen

Ein Entwickler testete GLM 5 mit MLX 4-Bit-Quantisierung auf einem Mac M3 mit 512 GB RAM für agentenbasierte Programmieraufgaben. Das Modell wird als "durchaus nutzbar" beschrieben, solange der Kontext unter etwa 50.000 Token bleibt, obwohl es deutlich langsamer ist als API-basierte Lösungen wie Claude, insbesondere während der Prompt-Verarbeitung.

Die Leistung verschlechtert sich erheblich, wenn der Kontext 50.000 Token überschreitet. In einem Test mit 65.000 Token wurde die erste Hälfte in 8 Minuten verarbeitet (67 Token/Sekunde), während die zweite Hälfte weitere 18 Minuten benötigte, was einer Gesamtrate von 41 Token/Sekunde entspricht. Die Token-Generierung bleibt schneller und wird bei größeren Kontextgrößen auf 12–20 Token/Sekunde geschätzt.

Workflow-Beobachtungen

Der Nutzer stellt fest, dass Opencode (das agentenbasierte Programmier-System) die Generierung von Code über mehrere Dateien effizient handhabt, sobald ein Plan erstellt ist, und "Tausende von Token Code über mehrere Dateien in nur wenigen Minuten mit dazwischenliegenden Überlegungen" ausgibt. Die Prompt-Verarbeitung dauert typischerweise "ein paar Minuten", um einige hundert Codezeilen pro Datei zu lesen, wobei insgesamt etwa 10 Minuten über mehrere Planungssitzungen verteilt anfallen.

Die Komprimierung in Opencode "dauert tatsächlich eine Weile, da sie im Grunde den gesamten Kontext neu verarbeiten möchte". Bei einer Kontextgrenze von 50.000 Token dauert die Komprimierung etwa 5 Minuten.

Technisches Setup und zukünftige Erwartungen

Der Test wurde mit LM Studio durchgeführt, das möglicherweise nicht die neuesten Laufzeitoptimierungen bietet. Der Nutzer vermutet, dass "MLX oder sogar GGUF bei der Prompt-Verarbeitung schneller werden könnten, wenn die Laufzeiten für GLM 5 aktualisiert werden, aber es wird wahrscheinlich nicht VIEL schneller als dies werden".

Das Setup wird für Aufgaben, die 70.000+ Token im Kontext erfordern, nicht empfohlen, sowohl aufgrund der Kontextgrößenbeschränkungen als auch der "unerträglichen Langsamkeit", die nach Überschreiten bestimmter Schwellenwerte während der Prompt-Verarbeitung auftritt.

📖 Read the full source: r/LocalLLaMA

GLM 5 auf Mac M3: Leistungsbeobachtungen für agentenbasiertes Programmieren

Leistungsbenchmarks und Einschränkungen

Workflow-Beobachtungen

Technisches Setup und zukünftige Erwartungen

👀 Siehe auch

ToolLoop: Open-Source-Framework für Claude-ähnliche Tools mit jedem LLM

Anthropic macht Claude für den Rechtsbereich Open-Source: Plugin-Suite für Vertragsprüfung, NDA-Triage und mehr

Open-Source-Agenten-Fähigkeit für TypeScript-, React- und Next.js-Muster

Rückentwickelter Claude-Design-System-Prompt für KI-UI-Agenten ohne Schrott