Vergleich von 8 KI-Codierungsmodellen bei der Implementierung realer TypeScript-Funktionen

Vergleich von KI-Codierungsmodellen in der Praxis
Ein Entwickler führte einen praktischen Vergleich von 8 KI-Codierungsmodellen durch, indem er sie dieselbe reale Funktion in einem bestehenden TypeScript-Projekt implementieren ließ. Das Ziel war, über synthetische Benchmarks hinauszugehen und zu sehen, wie sich Modelle bei der Arbeit mit tatsächlichen Codebasen verhalten.
Der Testaufbau
Das verwendete Projekt war OpenCode Telegram Bot, ein Open-Source-TypeScript-Bot, der mit dem grammY-Framework erstellt wurde und eine Telegram-Schnittstelle zu Opencode-Funktionen bietet. Der Bot verfügt über i18n-Unterstützung und bestehende Testabdeckung.
Die Aufgabe bestand darin, einen /rename-Befehl zu implementieren, der die aktuelle Arbeitssitzung umbenennt. Diese Funktion betrifft alle Anwendungsebenen und erfordert die Handhabung mehrerer Randfälle. Die ursprüngliche Implementierung war rückgängig gemacht worden, was eine saubere Basis für die Bewertung bot.
Jedes Modell erhielt denselben Prompt in zwei Phasen: zuerst im Planungsmodus (Studium der Codebasis und Erstellung eines Implementierungsplans), dann im Codierungsmodus. Alle Tests wurden mit Opencode im "Denk"-Modus und aktiviertem Reasoning durchgeführt.
Getestete Modelle
- Claude 4.6 Sonnet (3,00 $ Eingabe/15,00 $ Ausgabe pro 1 Mio. Tokens)
- Claude 4.6 Opus (5,00 $/25,00 $)
- GLM 5 (1,00 $/3,20 $)
- Kimi K2.5 (0,60 $/3,00 $)
- MiniMax M2.5 (0,30 $/1,20 $)
- GPT 5.3 Codex (hoch) (1,75 $/14,00 $)
- GPT 5.4 (hoch) (2,50 $/15,00 $)
- Gemini 3.1 Pro (hoch) (2,00 $/12,00 $)
Daten zum Coding Index und Agentic Index stammten von Artificial Analysis. Alle Modelle wurden über OpenCode Zen aufgerufen, einem Anbieter des OpenCode-Teams, der Modelle auf Kompatibilität mit ihrem Tool testet.
Bewertungsmethodik
Vier Metriken wurden verwendet:
- API-Kosten ($) - Gesamtkosten aller API-Aufrufe während der Aufgabe, einschließlich Sub-Agents
- Ausführungszeit (mm:ss) - Gesamte Arbeitszeit des Modells
- Implementierungskorrektheit (0-10) - Wie gut das Verhalten den Anforderungen und Randfällen entspricht
- Technische Qualität (0-10) - Ingenieurtechnische Qualität der Lösung
Für Korrektheits- und Qualitätsbewertungen wurde die bestehende /rename-Implementierung verwendet, um detaillierte Bewertungskriterien abzuleiten, die Befehlsintegration, Hauptablauf, Fehlerbehandlung, Abbruch, i18n, Dokumentation, Architektur, Zustandsverwaltung, Tests und technische Schulden abdecken. Die Bewertung wurde von GPT-5.3 Codex anhand eines strukturierten Bewertungsrasters durchgeführt, wobei mehrere Durchläufe eine Varianz innerhalb von ±0,5 Punkten zeigten.
Wesentliche Erkenntnisse
Die Ergebnisse zeigten, dass GPT-5.4 (hoch) die höchste Implementierungskorrektheitsbewertung von 57 von 69 auf dem Agentic Index erzielte. GLM 5 zeigte ein starkes Preis-Leistungs-Verhältnis bei 1,00 $/3,20 $ pro 1 Mio. Tokens mit einem Coding Index von 53. Das Experiment zeigte, dass kostengünstige Open-Source-Modelle aus China proprietären Modellen in praktischen Codierungsaufgaben nahekommen, obwohl Benchmarks allein nicht die ganze Geschichte erzählen.
📖 Read the full source: r/LocalLLaMA
👀 Siehe auch

Architor: Open-Source-Tool für phasengesteuerte Architektur-Workflows mit Claude Code
Architor ist ein Open-Source-Tool, das Claude Code in einen phasengesteuerten Architekturassistenten mit persistentem Designgedächtnis strukturiert. Es organisiert Systemdesign in die Phasen Anforderungsbewertung, Architekturentscheidungen, Komponentendesign und Validierung und verfolgt Entscheidungen in einem .arch-Arbeitsbereich.

Druckbare Claude-Code-Cheat-Sheet mit wöchentlichen automatischen Updates
Ein Entwickler hat eine einseitige, druckbare Spickzettel für Claude Code erstellt, der sich wöchentlich automatisch aktualisiert. Der Spickzettel wurde mithilfe von Claude selbst erstellt und deckt Tastenkombinationen, Slash-Befehle, Workflows, das Skills-System, Memory/CLAUDE.md, MCP-Einrichtung, CLI-Flags und Konfigurationsdateien ab. Die HTML-Datei wird wöchentlich über einen Cron-Job aktualisiert, wobei neue Funktionen als 'NEU' gekennzeichnet werden.

SuperContext: Ein Persistent Memory Framework für KI-Codierungsagenten
SuperContext ist ein Open-Source-Framework, das KI-Codierungswerkzeugen wie Claude durch strukturierte, zielgerichtete Dateien anstelle großer Anleitungsdokumente dauerhafte Erinnerung verleiht. Es enthält einen ausführbaren Prompt, der das System in etwa 10 Minuten ohne manuelle Einrichtung aufbaut.

AskFirst API fügt KI-Agenten eine menschliche Genehmigungsebene hinzu
AskFirst ist eine REST-API, die KI-Agenten pausieren lässt, um menschliche Genehmigung einzuholen, bevor sie irreversible Aktionen durchführen. Sie funktioniert mit lokalen Modellen, gehosteten APIs und jedem Framework und bietet E-Mail-Benachrichtigungen, Genehmigungs-/Ablehnungsoptionen und Audit-Protokolle.