LLM Benchmark: 15 Modelle gegen 38 Workflow-Aufgaben

Ein Entwickler hat ein Benchmark-System erstellt, um zu bestimmen, an welche LLMs Aufgaben weitergeleitet werden sollen, und dabei 15 Modelle anhand von 38 Aufgaben aus seinem realen Arbeitsablauf getestet. Die Aufgaben umfassten CSV-Transformationen, Buchstaben zählen, modulare Arithmetik, Formatkonformität und mehrstufige Anweisungen. Alle Aufgaben wurden programmatisch anhand von Regex und exakten Übereinstimmungen bewertet – ohne LLM als Bewertungssystem.

Benchmark-Ergebnisse

Der Benchmark umfasste 570 API-Aufrufe mit Gesamtkosten von 2,29 $. Wichtige Erkenntnisse:

Claude 3.5 Opus: 100 % Punktzahl, 0,69 $ pro Durchlauf, 14,2 Sekunden
Claude 3.5 Sonnet: 100 % Punktzahl, 0,20 $ pro Durchlauf, 5,1 Sekunden
MiniMax M2.5: 98,60 % Punktzahl, 0,02 $ pro Durchlauf, 2,3 Sekunden
Kimi K2.5: 98,60 % Punktzahl, 0,05 $ pro Durchlauf, 3,8 Sekunden
GPT-oss-20b (lokal): 98,30 % Punktzahl, 0 $ pro Durchlauf, 4,1 Sekunden
Gemini 2.5 Flash: 97,10 % Punktzahl, 0,00 $ pro Durchlauf, 1,1 Sekunden
Claude 3.5 Haiku: 96,90 % Punktzahl, 0,02 $ pro Durchlauf, 1,8 Sekunden

Kosten-Leistungs-Analyse

Sonnet und Opus erzielten beide 100 %, aber Opus kostet 3,5-mal mehr pro Aufruf. Für die täglichen Aufgaben des Entwicklers bewältigt Sonnet alles, was Opus kann. Gemini Flash mit 0,003 $ pro Durchlauf gegenüber Opus mit 0,69 $ pro Durchlauf bedeutet einen 265-fachen Kostenunterschied bei einer Leistungslücke von 2,9 Punkten.

Überraschende Erkenntnisse

MiniMax M2.5 und Kimi K2.5 erreichten beide 98,6 % mit 100 % Formatkonformität – der Entwickler hatte keines der Modelle vor dem Benchmark verwendet. GPT-oss-20b, lokal ausgeführt, erzielte 98,3 % für 0 $ und übertraf damit Haiku und DeepSeek R1.

QA-Prozess

Der Qualitätssicherungsprozess deckte Bewertungsfehler auf. Anfängliche Ergebnisse zeigten, dass Haiku Sonnet übertraf, was sich als Bewertungsfehler herausstellte, der Punktzahlen über 100 % erzeugte. Fünf QA-Durchläufe wurden durchgeführt, jeweils mit einem anderen Modell, und jeder fand Fehler, die die vorherigen übersehen hatten.

Der Entwickler wechselt aufgrund dieser Ergebnisse sein Hauptmodell zu Sonnet, plant aber, angesichts der Leistungsunterschiede häufiger zwischen Modellen zu wechseln.

📖 Read the full source: r/ClaudeAI

Benchmark-Ergebnisse: 15 LLMs getestet an 38 realen Workflow-Aufgaben

Benchmark-Ergebnisse

Kosten-Leistungs-Analyse

Überraschende Erkenntnisse

QA-Prozess

👀 Siehe auch

50 beliebte Apps in Claude-lesbare Designspezifikationen zurückentwickelt: Schlüsselmuster für UI-Klonierung

Vergleich von 14 Claw KI-Agenten-Varianten in 10 Kategorien

Throttle Meter: Open-Source Claude Code-Nutzungszähler für macOS

Einführung von NetViews 2.3: Ein robustes Netzwerkdiagnosetool für macOS