GLM-5-Turbo: Tool-Call-Fehlerrate bei 0,57% im Test

Das z-ai/glm-5-turbo-Modell zeigt laut Nutzertests, die auf r/LocalLLaMA geteilt wurden, vielversprechende Leistung für Tool-Calling-Anwendungen.

Benchmark-Ergebnisse

Tests deuten darauf hin, dass das Modell eine sehr niedrige durchschnittliche Tool-Call-Fehlerrate von 0,57 % erreicht. Dies stellt eine deutliche Verbesserung gegenüber dem Standard-GLM-5-Modell dar, das eine Fehlerrate von etwa 3 % aufweist – was GLM-5-turbo für Tool-Calling-Aufgaben etwa 6-mal genauer macht.

Im Vergleich zu Modellen anderer Anbieter:

Anthropic-Modelle liegen zwischen 0,38 % und 0,93 % mit einem Durchschnitt von 0,67 %
Amazon Bedrock-Modelle liegen zwischen 1,48 % und 1,76 % mit einem Durchschnitt von 1,63 %
Google Vertex-Modelle liegen zwischen 0,99 % und 2,62 % mit einem Durchschnitt von 1,93 %

Praktische Anwendung

Ein Nutzer testete GLM-5-turbo mit einem neuen CLI-Tool zum Schreiben von Fantasy-Romanen und berichtete von erheblichen Verbesserungen gegenüber früheren Modellen. Mit dem Standard-GLM-5 war das Tool "etwas unzuverlässig, wenn es um etwas Nicht-Englisches ging, und wusste zufällig nicht, welchen Befehl es im Vergleich zur Nutzeranfrage korrekt verwenden sollte".

Mit GLM-5-turbo (Max-Plan) schrieb der Nutzer erfolgreich 97.000 Wörter mit "keiner Unzuverlässigkeit, keinem Gedankenstrich, verbundenen Kapiteln und Tool-Calls, die fast immer korrekt ausgeführt wurden". Laut Quelle unterstützt das Modell OpenClaw besonders gut.

Nutzungsüberlegungen

Die Quelle deutet an, dass GLM-5-turbo für Nebenprojekte geeignet sein könnte, die Programmierunterstützung erfordern, warnt jedoch, dass für Produktionsprojekte, die stabilere Faktoren benötigen, "es sich nicht wie die richtige Wahl anfühlt". Der Nutzer erwähnte auch, in Betracht zu ziehen, NemoClaw mit GLM-5-turbo in einer Homelab-Umgebung anstelle von OpenClaw zu verwenden.

Erste Nutzungsdaten auf Openrouter zeigen gute Zahlen für die ersten 100B Tokens, obwohl in der Quelle keine spezifischen Metriken angegeben wurden.

📖 Read the full source: r/LocalLLaMA

GLM-5-Turbo zeigt niedrige Tool-Call-Fehlerraten in Benutzertests

Benchmark-Ergebnisse

Praktische Anwendung

Nutzungsüberlegungen

👀 Siehe auch

Open-Source-Chrome-Erweiterungs-Entwicklungskompetenzpaket veröffentlicht

Wie ich in 2 Stunden mit Claude Code und Veo eine 3D-Scroll-Website erstellt habe

PocketTeam: Eine Claude-Code-Pipeline mit Haken-basierter Sicherheit und lernenden Agenten

Open-Source-CLAUDE.md hält Claude-Code-Agenten stundenlang produktiv, ohne Endlosschleifen