15 LLMs Testés sur 38 Tâches Réelles : Les Résultats

Un développeur a créé un banc d'essai pour déterminer vers quels LLMs router le travail, en testant 15 modèles sur 38 tâches issues de son flux de travail réel. Les tâches incluaient des transformations CSV, des comptages de lettres, de l'arithmétique modulaire, de la conformité de format et des instructions en plusieurs étapes. Toutes les tâches ont été notées de manière programmatique à l'aide d'expressions régulières et de correspondances exactes — aucun juge LLM n'a été impliqué.

Résultats du benchmark

Le benchmark a impliqué 570 appels API coûtant 2,29 $ au total. Principales conclusions :

Claude 3.5 Opus : score de 100 %, 0,69 $ par exécution, 14,2 secondes
Claude 3.5 Sonnet : score de 100 %, 0,20 $ par exécution, 5,1 secondes
MiniMax M2.5 : score de 98,60 %, 0,02 $ par exécution, 2,3 secondes
Kimi K2.5 : score de 98,60 %, 0,05 $ par exécution, 3,8 secondes
GPT-oss-20b (local) : score de 98,30 %, 0 $ par exécution, 4,1 secondes
Gemini 2.5 Flash : score de 97,10 %, 0,00 $ par exécution, 1,1 seconde
Claude 3.5 Haiku : score de 96,90 %, 0,02 $ par exécution, 1,8 seconde

Analyse coût-performance

Sonnet et Opus ont tous deux obtenu 100 %, mais Opus coûte 3,5 fois plus par appel. Pour les tâches quotidiennes du développeur, Sonnet gère tout ce qu'Opus fait. Gemini Flash à 0,003 $ par exécution contre Opus à 0,69 $ représente une différence de coût de 265 fois pour un écart de performance de 2,9 points.

Découvertes surprenantes

MiniMax M2.5 et Kimi K2.5 ont tous deux atteint 98,6 % avec une conformité de format de 100 % — le développeur n'avait utilisé aucun de ces modèles avant de lancer le benchmark. GPT-oss-20b fonctionnant localement a obtenu 98,3 % pour 0 $, surpassant Haiku et DeepSeek R1.

Processus d'assurance qualité

Le processus d'assurance qualité a révélé des bugs de notation. Les résultats initiaux montraient Haiku battant Sonnet, ce qui s'est avéré être un bug du système de notation produisant des scores de qualité supérieurs à 100 %. Cinq passes d'assurance qualité ont été réalisées, chacune avec un modèle différent, et chacune a trouvé des bugs que les précédentes avaient manqués.

Le développeur change son outil principal pour Sonnet sur la base de ces résultats, mais prévoit de basculer plus fréquemment entre les modèles compte tenu des variations de performance.

📖 Read the full source: r/ClaudeAI