GLM 5 auf Mac M3: Leistungsbeobachtungen für agentenbasiertes Programmieren

Leistungsbenchmarks und Einschränkungen
Ein Entwickler testete GLM 5 mit MLX 4-Bit-Quantisierung auf einem Mac M3 mit 512 GB RAM für agentenbasierte Programmieraufgaben. Das Modell wird als "durchaus nutzbar" beschrieben, solange der Kontext unter etwa 50.000 Token bleibt, obwohl es deutlich langsamer ist als API-basierte Lösungen wie Claude, insbesondere während der Prompt-Verarbeitung.
Die Leistung verschlechtert sich erheblich, wenn der Kontext 50.000 Token überschreitet. In einem Test mit 65.000 Token wurde die erste Hälfte in 8 Minuten verarbeitet (67 Token/Sekunde), während die zweite Hälfte weitere 18 Minuten benötigte, was einer Gesamtrate von 41 Token/Sekunde entspricht. Die Token-Generierung bleibt schneller und wird bei größeren Kontextgrößen auf 12–20 Token/Sekunde geschätzt.
Workflow-Beobachtungen
Der Nutzer stellt fest, dass Opencode (das agentenbasierte Programmier-System) die Generierung von Code über mehrere Dateien effizient handhabt, sobald ein Plan erstellt ist, und "Tausende von Token Code über mehrere Dateien in nur wenigen Minuten mit dazwischenliegenden Überlegungen" ausgibt. Die Prompt-Verarbeitung dauert typischerweise "ein paar Minuten", um einige hundert Codezeilen pro Datei zu lesen, wobei insgesamt etwa 10 Minuten über mehrere Planungssitzungen verteilt anfallen.
Die Komprimierung in Opencode "dauert tatsächlich eine Weile, da sie im Grunde den gesamten Kontext neu verarbeiten möchte". Bei einer Kontextgrenze von 50.000 Token dauert die Komprimierung etwa 5 Minuten.
Technisches Setup und zukünftige Erwartungen
Der Test wurde mit LM Studio durchgeführt, das möglicherweise nicht die neuesten Laufzeitoptimierungen bietet. Der Nutzer vermutet, dass "MLX oder sogar GGUF bei der Prompt-Verarbeitung schneller werden könnten, wenn die Laufzeiten für GLM 5 aktualisiert werden, aber es wird wahrscheinlich nicht VIEL schneller als dies werden".
Das Setup wird für Aufgaben, die 70.000+ Token im Kontext erfordern, nicht empfohlen, sowohl aufgrund der Kontextgrößenbeschränkungen als auch der "unerträglichen Langsamkeit", die nach Überschreiten bestimmter Schwellenwerte während der Prompt-Verarbeitung auftritt.
📖 Read the full source: r/LocalLLaMA
👀 Siehe auch

Lokale-Cloud-Hybride-KI-Architektur: Praktische Muster inspiriert von r/LocalLLaMA
Der ursprüngliche Beitrag schlägt ein hybrides KI-Modell vor, bei dem ein lokales Modell Routineaufgaben übernimmt und komplexe Überlegungen über einen einzigen API-Aufruf an ein Cloud-Modell delegiert, zusammen mit einem deterministischen 'Hypervisor' für Sicherheitsvorkehrungen.

devopsiphai: Open-Source-Claude-Code prüft die Betriebsgesundheit in 6 Phasen
devopsiphai ist eine Open-Source-Claude-Code-Fähigkeit, die die Betriebsbereitschaft von Produktionsprojekten mithilfe eines 6-Phasen-Prozesses und des ARC-Frameworks überprüft und dabei Buchstabennoten sowie eine strukturierte TODO.md mit aufwandgeschätzten Aufgaben ausgibt.

Fingerprints kostenloses Web-Bot-Authentifizierungstest-Tool für KI-Agenten-Entwickler
Fingerprint hat einen kostenlosen, öffentlichen Endpunkt für das Testen von Web Bot Auth-Implementierungen veröffentlicht. Das Tool validiert kryptografische Signaturen auf HTTP-Anfragen und hilft Entwicklern von Bots und KI-Agenten sicherzustellen, dass ihre WBA-Einrichtung korrekt funktioniert, bevor sie in die Produktion gehen.

docvault: Lokale API-Dokumentation generieren, um KI-Halluzinationen zu reduzieren
docvault ist ein Tool, das Markdown-API-Referenzen aus Quellcode generiert, um Claude und anderen LLMs dabei zu helfen, das Halluzinieren von Funktionssignaturen zu stoppen. Es funktioniert für Rust-Crates und Python-Pakete, erzeugt eine zweistufige Markdown-Datei und enthält ein Claude Code-Plugin für den automatisierten Betrieb.