Vergleich von 8 KI-Codierungsmodellen bei der Implementierung realer TypeScript-Funktionen

✍️ OpenClawRadar📅 Veröffentlicht: 15. März 2026🔗 Source
Vergleich von 8 KI-Codierungsmodellen bei der Implementierung realer TypeScript-Funktionen
Ad

Vergleich von KI-Codierungsmodellen in der Praxis

Ein Entwickler führte einen praktischen Vergleich von 8 KI-Codierungsmodellen durch, indem er sie dieselbe reale Funktion in einem bestehenden TypeScript-Projekt implementieren ließ. Das Ziel war, über synthetische Benchmarks hinauszugehen und zu sehen, wie sich Modelle bei der Arbeit mit tatsächlichen Codebasen verhalten.

Der Testaufbau

Das verwendete Projekt war OpenCode Telegram Bot, ein Open-Source-TypeScript-Bot, der mit dem grammY-Framework erstellt wurde und eine Telegram-Schnittstelle zu Opencode-Funktionen bietet. Der Bot verfügt über i18n-Unterstützung und bestehende Testabdeckung.

Die Aufgabe bestand darin, einen /rename-Befehl zu implementieren, der die aktuelle Arbeitssitzung umbenennt. Diese Funktion betrifft alle Anwendungsebenen und erfordert die Handhabung mehrerer Randfälle. Die ursprüngliche Implementierung war rückgängig gemacht worden, was eine saubere Basis für die Bewertung bot.

Jedes Modell erhielt denselben Prompt in zwei Phasen: zuerst im Planungsmodus (Studium der Codebasis und Erstellung eines Implementierungsplans), dann im Codierungsmodus. Alle Tests wurden mit Opencode im "Denk"-Modus und aktiviertem Reasoning durchgeführt.

Getestete Modelle

  • Claude 4.6 Sonnet (3,00 $ Eingabe/15,00 $ Ausgabe pro 1 Mio. Tokens)
  • Claude 4.6 Opus (5,00 $/25,00 $)
  • GLM 5 (1,00 $/3,20 $)
  • Kimi K2.5 (0,60 $/3,00 $)
  • MiniMax M2.5 (0,30 $/1,20 $)
  • GPT 5.3 Codex (hoch) (1,75 $/14,00 $)
  • GPT 5.4 (hoch) (2,50 $/15,00 $)
  • Gemini 3.1 Pro (hoch) (2,00 $/12,00 $)

Daten zum Coding Index und Agentic Index stammten von Artificial Analysis. Alle Modelle wurden über OpenCode Zen aufgerufen, einem Anbieter des OpenCode-Teams, der Modelle auf Kompatibilität mit ihrem Tool testet.

Ad

Bewertungsmethodik

Vier Metriken wurden verwendet:

  • API-Kosten ($) - Gesamtkosten aller API-Aufrufe während der Aufgabe, einschließlich Sub-Agents
  • Ausführungszeit (mm:ss) - Gesamte Arbeitszeit des Modells
  • Implementierungskorrektheit (0-10) - Wie gut das Verhalten den Anforderungen und Randfällen entspricht
  • Technische Qualität (0-10) - Ingenieurtechnische Qualität der Lösung

Für Korrektheits- und Qualitätsbewertungen wurde die bestehende /rename-Implementierung verwendet, um detaillierte Bewertungskriterien abzuleiten, die Befehlsintegration, Hauptablauf, Fehlerbehandlung, Abbruch, i18n, Dokumentation, Architektur, Zustandsverwaltung, Tests und technische Schulden abdecken. Die Bewertung wurde von GPT-5.3 Codex anhand eines strukturierten Bewertungsrasters durchgeführt, wobei mehrere Durchläufe eine Varianz innerhalb von ±0,5 Punkten zeigten.

Wesentliche Erkenntnisse

Die Ergebnisse zeigten, dass GPT-5.4 (hoch) die höchste Implementierungskorrektheitsbewertung von 57 von 69 auf dem Agentic Index erzielte. GLM 5 zeigte ein starkes Preis-Leistungs-Verhältnis bei 1,00 $/3,20 $ pro 1 Mio. Tokens mit einem Coding Index von 53. Das Experiment zeigte, dass kostengünstige Open-Source-Modelle aus China proprietären Modellen in praktischen Codierungsaufgaben nahekommen, obwohl Benchmarks allein nicht die ganze Geschichte erzählen.

📖 Read the full source: r/LocalLLaMA

Ad

👀 Siehe auch

Architor: Open-Source-Tool für phasengesteuerte Architektur-Workflows mit Claude Code
Werkzeuge

Architor: Open-Source-Tool für phasengesteuerte Architektur-Workflows mit Claude Code

Architor ist ein Open-Source-Tool, das Claude Code in einen phasengesteuerten Architekturassistenten mit persistentem Designgedächtnis strukturiert. Es organisiert Systemdesign in die Phasen Anforderungsbewertung, Architekturentscheidungen, Komponentendesign und Validierung und verfolgt Entscheidungen in einem .arch-Arbeitsbereich.

OpenClawRadar
Druckbare Claude-Code-Cheat-Sheet mit wöchentlichen automatischen Updates
Werkzeuge

Druckbare Claude-Code-Cheat-Sheet mit wöchentlichen automatischen Updates

Ein Entwickler hat eine einseitige, druckbare Spickzettel für Claude Code erstellt, der sich wöchentlich automatisch aktualisiert. Der Spickzettel wurde mithilfe von Claude selbst erstellt und deckt Tastenkombinationen, Slash-Befehle, Workflows, das Skills-System, Memory/CLAUDE.md, MCP-Einrichtung, CLI-Flags und Konfigurationsdateien ab. Die HTML-Datei wird wöchentlich über einen Cron-Job aktualisiert, wobei neue Funktionen als 'NEU' gekennzeichnet werden.

OpenClawRadar
SuperContext: Ein Persistent Memory Framework für KI-Codierungsagenten
Werkzeuge

SuperContext: Ein Persistent Memory Framework für KI-Codierungsagenten

SuperContext ist ein Open-Source-Framework, das KI-Codierungswerkzeugen wie Claude durch strukturierte, zielgerichtete Dateien anstelle großer Anleitungsdokumente dauerhafte Erinnerung verleiht. Es enthält einen ausführbaren Prompt, der das System in etwa 10 Minuten ohne manuelle Einrichtung aufbaut.

OpenClawRadar
AskFirst API fügt KI-Agenten eine menschliche Genehmigungsebene hinzu
Werkzeuge

AskFirst API fügt KI-Agenten eine menschliche Genehmigungsebene hinzu

AskFirst ist eine REST-API, die KI-Agenten pausieren lässt, um menschliche Genehmigung einzuholen, bevor sie irreversible Aktionen durchführen. Sie funktioniert mit lokalen Modellen, gehosteten APIs und jedem Framework und bietet E-Mail-Benachrichtigungen, Genehmigungs-/Ablehnungsoptionen und Audit-Protokolle.

OpenClawRadar