Benchmark-Ergebnisse: 15 LLMs getestet an 38 realen Workflow-Aufgaben

Ein Entwickler hat ein Benchmark-System erstellt, um zu bestimmen, an welche LLMs Aufgaben weitergeleitet werden sollen, und dabei 15 Modelle anhand von 38 Aufgaben aus seinem realen Arbeitsablauf getestet. Die Aufgaben umfassten CSV-Transformationen, Buchstaben zählen, modulare Arithmetik, Formatkonformität und mehrstufige Anweisungen. Alle Aufgaben wurden programmatisch anhand von Regex und exakten Übereinstimmungen bewertet – ohne LLM als Bewertungssystem.
Benchmark-Ergebnisse
Der Benchmark umfasste 570 API-Aufrufe mit Gesamtkosten von 2,29 $. Wichtige Erkenntnisse:
- Claude 3.5 Opus: 100 % Punktzahl, 0,69 $ pro Durchlauf, 14,2 Sekunden
- Claude 3.5 Sonnet: 100 % Punktzahl, 0,20 $ pro Durchlauf, 5,1 Sekunden
- MiniMax M2.5: 98,60 % Punktzahl, 0,02 $ pro Durchlauf, 2,3 Sekunden
- Kimi K2.5: 98,60 % Punktzahl, 0,05 $ pro Durchlauf, 3,8 Sekunden
- GPT-oss-20b (lokal): 98,30 % Punktzahl, 0 $ pro Durchlauf, 4,1 Sekunden
- Gemini 2.5 Flash: 97,10 % Punktzahl, 0,00 $ pro Durchlauf, 1,1 Sekunden
- Claude 3.5 Haiku: 96,90 % Punktzahl, 0,02 $ pro Durchlauf, 1,8 Sekunden
Kosten-Leistungs-Analyse
Sonnet und Opus erzielten beide 100 %, aber Opus kostet 3,5-mal mehr pro Aufruf. Für die täglichen Aufgaben des Entwicklers bewältigt Sonnet alles, was Opus kann. Gemini Flash mit 0,003 $ pro Durchlauf gegenüber Opus mit 0,69 $ pro Durchlauf bedeutet einen 265-fachen Kostenunterschied bei einer Leistungslücke von 2,9 Punkten.
Überraschende Erkenntnisse
MiniMax M2.5 und Kimi K2.5 erreichten beide 98,6 % mit 100 % Formatkonformität – der Entwickler hatte keines der Modelle vor dem Benchmark verwendet. GPT-oss-20b, lokal ausgeführt, erzielte 98,3 % für 0 $ und übertraf damit Haiku und DeepSeek R1.
QA-Prozess
Der Qualitätssicherungsprozess deckte Bewertungsfehler auf. Anfängliche Ergebnisse zeigten, dass Haiku Sonnet übertraf, was sich als Bewertungsfehler herausstellte, der Punktzahlen über 100 % erzeugte. Fünf QA-Durchläufe wurden durchgeführt, jeweils mit einem anderen Modell, und jeder fand Fehler, die die vorherigen übersehen hatten.
Der Entwickler wechselt aufgrund dieser Ergebnisse sein Hauptmodell zu Sonnet, plant aber, angesichts der Leistungsunterschiede häufiger zwischen Modellen zu wechseln.
📖 Read the full source: r/ClaudeAI
👀 Siehe auch

50 beliebte Apps in Claude-lesbare Designspezifikationen zurückentwickelt: Schlüsselmuster für UI-Klonierung
u/meliwat hat 50 beliebte Apps in strukturierte Markdown-Designspezifikationen zerlegt. Claude liefert UI-Klone mit exakten Werten, Zustandsabdeckung, Abstandsskalen und Navigationsgraphen. Längere Prosa verschlechtert die Ausgabe.

Vergleich von 14 Claw KI-Agenten-Varianten in 10 Kategorien
Ein detaillierter Vergleich von 14 beliebten Claw-AI-Agenten-Varianten, darunter OpenClaw, NanoClaw, NemoClaw, ZeroClaw, PicoClaw, Moltis, IronClaw und NullClaw, bewertet über 53 Unterparameter mit zusammengesetzten Ranglisten und idealen Anwendungsfällen für jede Variante.

Throttle Meter: Open-Source Claude Code-Nutzungszähler für macOS
Open-Source macOS-Menüleisten-App, die lokale Claude Code-Logs liest, um Echtzeit-Nutzung der letzten 5 Stunden und wöchentliche Nutzung mit Schwellenwertbenachrichtigungen und Token-sparenden Hooks anzuzeigen. Hat auch einen €19 kommerziellen Ableger mit Exact-Modus (liest claude.ais interne API über Safari).

Einführung von NetViews 2.3: Ein robustes Netzwerkdiagnosetool für macOS
NetViews 2.3 kombiniert Host-Erkennung, WLAN-Insights und Echtzeitüberwachung mit einer optimierten Benutzeroberfläche für bessere Netzwerkdiagnosen unter macOS.