8 KI-Codierungsmodelle im Test: GPT-5.4 vs GLM 5 für TypeScript

Vergleich von KI-Codierungsmodellen in der Praxis

Ein Entwickler führte einen praktischen Vergleich von 8 KI-Codierungsmodellen durch, indem er sie dieselbe reale Funktion in einem bestehenden TypeScript-Projekt implementieren ließ. Das Ziel war, über synthetische Benchmarks hinauszugehen und zu sehen, wie sich Modelle bei der Arbeit mit tatsächlichen Codebasen verhalten.

Der Testaufbau

Das verwendete Projekt war OpenCode Telegram Bot, ein Open-Source-TypeScript-Bot, der mit dem grammY-Framework erstellt wurde und eine Telegram-Schnittstelle zu Opencode-Funktionen bietet. Der Bot verfügt über i18n-Unterstützung und bestehende Testabdeckung.

Die Aufgabe bestand darin, einen /rename-Befehl zu implementieren, der die aktuelle Arbeitssitzung umbenennt. Diese Funktion betrifft alle Anwendungsebenen und erfordert die Handhabung mehrerer Randfälle. Die ursprüngliche Implementierung war rückgängig gemacht worden, was eine saubere Basis für die Bewertung bot.

Jedes Modell erhielt denselben Prompt in zwei Phasen: zuerst im Planungsmodus (Studium der Codebasis und Erstellung eines Implementierungsplans), dann im Codierungsmodus. Alle Tests wurden mit Opencode im "Denk"-Modus und aktiviertem Reasoning durchgeführt.

Getestete Modelle

Claude 4.6 Sonnet (3,00 $ Eingabe/15,00 $ Ausgabe pro 1 Mio. Tokens)
Claude 4.6 Opus (5,00 $/25,00 $)
GLM 5 (1,00 $/3,20 $)
Kimi K2.5 (0,60 $/3,00 $)
MiniMax M2.5 (0,30 $/1,20 $)
GPT 5.3 Codex (hoch) (1,75 $/14,00 $)
GPT 5.4 (hoch) (2,50 $/15,00 $)
Gemini 3.1 Pro (hoch) (2,00 $/12,00 $)

Daten zum Coding Index und Agentic Index stammten von Artificial Analysis. Alle Modelle wurden über OpenCode Zen aufgerufen, einem Anbieter des OpenCode-Teams, der Modelle auf Kompatibilität mit ihrem Tool testet.

Bewertungsmethodik

Vier Metriken wurden verwendet:

API-Kosten ($) - Gesamtkosten aller API-Aufrufe während der Aufgabe, einschließlich Sub-Agents
Ausführungszeit (mm:ss) - Gesamte Arbeitszeit des Modells
Implementierungskorrektheit (0-10) - Wie gut das Verhalten den Anforderungen und Randfällen entspricht
Technische Qualität (0-10) - Ingenieurtechnische Qualität der Lösung

Für Korrektheits- und Qualitätsbewertungen wurde die bestehende /rename-Implementierung verwendet, um detaillierte Bewertungskriterien abzuleiten, die Befehlsintegration, Hauptablauf, Fehlerbehandlung, Abbruch, i18n, Dokumentation, Architektur, Zustandsverwaltung, Tests und technische Schulden abdecken. Die Bewertung wurde von GPT-5.3 Codex anhand eines strukturierten Bewertungsrasters durchgeführt, wobei mehrere Durchläufe eine Varianz innerhalb von ±0,5 Punkten zeigten.

Wesentliche Erkenntnisse

Die Ergebnisse zeigten, dass GPT-5.4 (hoch) die höchste Implementierungskorrektheitsbewertung von 57 von 69 auf dem Agentic Index erzielte. GLM 5 zeigte ein starkes Preis-Leistungs-Verhältnis bei 1,00 $/3,20 $ pro 1 Mio. Tokens mit einem Coding Index von 53. Das Experiment zeigte, dass kostengünstige Open-Source-Modelle aus China proprietären Modellen in praktischen Codierungsaufgaben nahekommen, obwohl Benchmarks allein nicht die ganze Geschichte erzählen.

📖 Read the full source: r/LocalLLaMA