Benchmark-Ergebnisse: 15 LLMs getestet an 38 realen Workflow-Aufgaben

✍️ OpenClawRadar📅 Veröffentlicht: 10. März 2026🔗 Source
Benchmark-Ergebnisse: 15 LLMs getestet an 38 realen Workflow-Aufgaben
Ad

Ein Entwickler hat ein Benchmark-System erstellt, um zu bestimmen, an welche LLMs Aufgaben weitergeleitet werden sollen, und dabei 15 Modelle anhand von 38 Aufgaben aus seinem realen Arbeitsablauf getestet. Die Aufgaben umfassten CSV-Transformationen, Buchstaben zählen, modulare Arithmetik, Formatkonformität und mehrstufige Anweisungen. Alle Aufgaben wurden programmatisch anhand von Regex und exakten Übereinstimmungen bewertet – ohne LLM als Bewertungssystem.

Benchmark-Ergebnisse

Der Benchmark umfasste 570 API-Aufrufe mit Gesamtkosten von 2,29 $. Wichtige Erkenntnisse:

  • Claude 3.5 Opus: 100 % Punktzahl, 0,69 $ pro Durchlauf, 14,2 Sekunden
  • Claude 3.5 Sonnet: 100 % Punktzahl, 0,20 $ pro Durchlauf, 5,1 Sekunden
  • MiniMax M2.5: 98,60 % Punktzahl, 0,02 $ pro Durchlauf, 2,3 Sekunden
  • Kimi K2.5: 98,60 % Punktzahl, 0,05 $ pro Durchlauf, 3,8 Sekunden
  • GPT-oss-20b (lokal): 98,30 % Punktzahl, 0 $ pro Durchlauf, 4,1 Sekunden
  • Gemini 2.5 Flash: 97,10 % Punktzahl, 0,00 $ pro Durchlauf, 1,1 Sekunden
  • Claude 3.5 Haiku: 96,90 % Punktzahl, 0,02 $ pro Durchlauf, 1,8 Sekunden
Ad

Kosten-Leistungs-Analyse

Sonnet und Opus erzielten beide 100 %, aber Opus kostet 3,5-mal mehr pro Aufruf. Für die täglichen Aufgaben des Entwicklers bewältigt Sonnet alles, was Opus kann. Gemini Flash mit 0,003 $ pro Durchlauf gegenüber Opus mit 0,69 $ pro Durchlauf bedeutet einen 265-fachen Kostenunterschied bei einer Leistungslücke von 2,9 Punkten.

Überraschende Erkenntnisse

MiniMax M2.5 und Kimi K2.5 erreichten beide 98,6 % mit 100 % Formatkonformität – der Entwickler hatte keines der Modelle vor dem Benchmark verwendet. GPT-oss-20b, lokal ausgeführt, erzielte 98,3 % für 0 $ und übertraf damit Haiku und DeepSeek R1.

QA-Prozess

Der Qualitätssicherungsprozess deckte Bewertungsfehler auf. Anfängliche Ergebnisse zeigten, dass Haiku Sonnet übertraf, was sich als Bewertungsfehler herausstellte, der Punktzahlen über 100 % erzeugte. Fünf QA-Durchläufe wurden durchgeführt, jeweils mit einem anderen Modell, und jeder fand Fehler, die die vorherigen übersehen hatten.

Der Entwickler wechselt aufgrund dieser Ergebnisse sein Hauptmodell zu Sonnet, plant aber, angesichts der Leistungsunterschiede häufiger zwischen Modellen zu wechseln.

📖 Read the full source: r/ClaudeAI

Ad

👀 Siehe auch