Résultats de Benchmark : 15 LLM Testés sur 38 Tâches de Flux de Travail Réelles

✍️ OpenClawRadar📅 Publié: March 10, 2026🔗 Source
Résultats de Benchmark : 15 LLM Testés sur 38 Tâches de Flux de Travail Réelles
Ad

Un développeur a créé un banc d'essai pour déterminer vers quels LLMs router le travail, en testant 15 modèles sur 38 tâches issues de son flux de travail réel. Les tâches incluaient des transformations CSV, des comptages de lettres, de l'arithmétique modulaire, de la conformité de format et des instructions en plusieurs étapes. Toutes les tâches ont été notées de manière programmatique à l'aide d'expressions régulières et de correspondances exactes — aucun juge LLM n'a été impliqué.

Résultats du benchmark

Le benchmark a impliqué 570 appels API coûtant 2,29 $ au total. Principales conclusions :

  • Claude 3.5 Opus : score de 100 %, 0,69 $ par exécution, 14,2 secondes
  • Claude 3.5 Sonnet : score de 100 %, 0,20 $ par exécution, 5,1 secondes
  • MiniMax M2.5 : score de 98,60 %, 0,02 $ par exécution, 2,3 secondes
  • Kimi K2.5 : score de 98,60 %, 0,05 $ par exécution, 3,8 secondes
  • GPT-oss-20b (local) : score de 98,30 %, 0 $ par exécution, 4,1 secondes
  • Gemini 2.5 Flash : score de 97,10 %, 0,00 $ par exécution, 1,1 seconde
  • Claude 3.5 Haiku : score de 96,90 %, 0,02 $ par exécution, 1,8 seconde
Ad

Analyse coût-performance

Sonnet et Opus ont tous deux obtenu 100 %, mais Opus coûte 3,5 fois plus par appel. Pour les tâches quotidiennes du développeur, Sonnet gère tout ce qu'Opus fait. Gemini Flash à 0,003 $ par exécution contre Opus à 0,69 $ représente une différence de coût de 265 fois pour un écart de performance de 2,9 points.

Découvertes surprenantes

MiniMax M2.5 et Kimi K2.5 ont tous deux atteint 98,6 % avec une conformité de format de 100 % — le développeur n'avait utilisé aucun de ces modèles avant de lancer le benchmark. GPT-oss-20b fonctionnant localement a obtenu 98,3 % pour 0 $, surpassant Haiku et DeepSeek R1.

Processus d'assurance qualité

Le processus d'assurance qualité a révélé des bugs de notation. Les résultats initiaux montraient Haiku battant Sonnet, ce qui s'est avéré être un bug du système de notation produisant des scores de qualité supérieurs à 100 %. Cinq passes d'assurance qualité ont été réalisées, chacune avec un modèle différent, et chacune a trouvé des bugs que les précédentes avaient manqués.

Le développeur change son outil principal pour Sonnet sur la base de ces résultats, mais prévoit de basculer plus fréquemment entre les modèles compte tenu des variations de performance.

📖 Read the full source: r/ClaudeAI

Ad

👀 See Also

altRAG : Remplacez la base de données vectorielle RAG par des fichiers pointeurs de 2 Ko pour les agents d'IA de codage
Tools

altRAG : Remplacez la base de données vectorielle RAG par des fichiers pointeurs de 2 Ko pour les agents d'IA de codage

altRAG est un outil Python qui remplace la RAG de base de données vectorielle par des fichiers de pointeurs légers. Il scanne les fichiers de compétences Markdown/YAML pour créer un fichier squelette de 2KB qui mappe les sections aux numéros de ligne exacts et aux décalages d'octets, permettant aux agents IA de lire uniquement les sections nécessaires au lieu des fichiers entiers.

OpenClawRadar
Doublure : Un Agent de Bureau Enseignable Qui Apprend les Tâches par Démonstration
Tools

Doublure : Un Agent de Bureau Enseignable Qui Apprend les Tâches par Démonstration

Understudy est un environnement d'exécution d'agent de bureau local-first capable d'opérer des applications GUI, des navigateurs, des outils shell, des fichiers et de la messagerie en une seule session. Vous démontrez une tâche une fois, il enregistre une vidéo d'écran et des événements sémantiques, extrait l'intention plutôt que les coordonnées, et la transforme en une compétence réutilisable.

OpenClawRadar
OpenClaw : Révolutionner la maintenance des sites web grâce à une surveillance continue
Tools

OpenClaw : Révolutionner la maintenance des sites web grâce à une surveillance continue

OpenClaw, une agence innovante pilotée par l'IA, redéfinit la maintenance des sites web en opérant sans relâche 24h/24 et 7j/7. En exploitant une automatisation avancée, elle garantit un fonctionnement optimal du site et traite rapidement les problèmes.

OpenClawRadar
InsForge : Plateforme backend open source pour agents de codage IA
Tools

InsForge : Plateforme backend open source pour agents de codage IA

InsForge est une plateforme backend open-source (Apache 2.0) qui fournit aux agents de codage IA une base de données gérée, l'authentification, le stockage, le calcul, l'hébergement et une passerelle IA, contrôlables via CLI ou MCP.

OpenClawRadar