Codex 5.3 vs GLM: OpenClaw-Test zeigt 9/10 und 5/10

Modellleistungs-Rankings für OpenClaw

Ein Entwickler testete mehrere KI-Modelle mit OpenClaw und teilte detaillierte Leistungsbeobachtungen mit. Die Tests umfassten Codex, Google, Sonnet, Gemini, DeepSeek und Z.ais GLM-Modelle, wobei der Fokus auf praktischen Nutzungserfahrungen lag und nicht auf Benchmarks.

Leistungsstärkste Modelle

Codex 5.3 - Bewertet mit 9/10. Das Lieblingsmodell des Entwicklers, wahrscheinlich für OpenClaw feinabgestimmt mit verbesserten Chat-Agenten-Funktionen. Es versteht die Benutzerabsicht gut, liefert konsistent die gewünschten Ergebnisse und hat minimale Unterbrechungen und Fehler.
Sonnet 4.6 - Bewertet mit 8/10. Zweitliebling aufgrund von Geschwindigkeit und Problemlösungsfähigkeit. Bietet ausreichende Erfahrung, wenn Codex 5.3 nicht verfügbar ist, geeignet für den täglichen Einsatz.
DeepSeek 3.2 Agent - Bewertet mit 7/10. Deutlich für OpenClaw angepasst, fühlt sich an wie die Arbeit mit einem nativen Agenten. Nicht so stark beim Programmieren wie Sonnet, Opus oder Codex, aber eine solide Alternative für den täglichen Gebrauch. API-Gebühren werden als potenziell hoch für eine chinesische Alternative vermerkt.

Mittlere Modelle

Google 3.1 Pro (Niedrig und Hoch) - Bewertet mit 6/10. Getestet mit Antigravity-Authentifizierung. Schwache OpenClaw-Interaktion, langsame Leistung, nicht überzeugend für den ständigen Einsatz. Würde nur in Betracht gezogen, wenn Sonnet und Codex nicht verfügbar wären.

Enttäuschende Modelle

GLM 4.7 - Bewertet mit 5/10. Beworben als Sonnet-Alternative mit günstigen API-Gebühren und 3-4-facher Codex-Quote auf Pro-Konten. Bleibt jedoch ständig hängen, antwortet spät und produziert inkonsistente Ausgabelängen selbst bei einfachen Aufgaben wie E-Mail-Prüfung. Verbrannte 1 Million Tokens in einer neuen Sitzung nur um 5 E-Mails zu prüfen.
GLM 5 - Bewertet mit 5/10. Benchmarks behaupten Wettbewerbsfähigkeit mit Opus und Codex 5.3, aber die OpenClaw-Erfahrung entspricht nicht. Verwendet 2-3 mal mehr Tokens für dieselben Aufgaben, antwortet spät und liefert Programmierantworten auf Sonnet 4.5 Niveau. Benötigt Optimierung speziell für OpenClaw. Hauptvorteil ist der Preis.
Gemini 3 Flash - Bewertet mit 4/10. Nur für sehr einfache Aufgaben geeignet, nicht empfohlen für ernsthafte Nutzung.

Der Entwickler merkte an, dass die Wahl des richtigen Modells aufgrund offensichtlicher Unterschiede in der Erfahrung schwierig ist, möglicherweise weil OpenClaw nicht optimiert ist oder Modellqualitätsprobleme vorliegen. Sie äußerten Enttäuschung über die GLM-Modelle trotz des Wunsches, sich über Codex hinaus zu diversifizieren, und hoffen auf zukünftige Verbesserungen.

📖 Read the full source: r/openclaw

OpenClaw-Modellleistungsüberprüfung: Codex 5.3 führt, GLM-Modelle enttäuschen

Modellleistungs-Rankings für OpenClaw

Leistungsstärkste Modelle

Mittlere Modelle

Enttäuschende Modelle

👀 Siehe auch

Open Swarm: Open-Source-System für den Betrieb Tausender paralleler KI-Agenten

Vigil: Ein kryptografisches ID-System für OpenClaw-Agenten zur Verhinderung von Blockierungen

Myelin: MD-Extraktor und Evaluator für prozedurales Gedächtnis von Claude-Code

MCP-Unterstützung in llama.cpp integriert mit neuen WebUI-Funktionen