Historique ELO du modèle Arena AI suit la dégradation des performances des LLM au fil du temps

✍️ OpenClawRadar📅 Publié: May 14, 2026🔗 Source
Historique ELO du modèle Arena AI suit la dégradation des performances des LLM au fil du temps
Ad

L'historique des classements ELO de l'Arena AI de Erwin Mayer (suivi en direct) représente les classements ELO historiques du classement LMSYS Arena pour exposer les tendances de performances des modèles d'IA phares. La principale observation : les modèles qui semblent excellents au lancement se dégradent souvent des semaines plus tard en raison de mises à jour silencieuses, de la quantification ou de modifications des couches de sécurité.

Fonctionnalités clés

  • Une courbe par laboratoire : Au lieu d'un graphique spaghetti de toutes les variantes, chaque grand laboratoire d'IA obtient une ligne continue unique représentant son modèle phare le mieux noté à un moment donné.
  • Logique de suivi des modèles phares : La courbe reste sur le modèle de premier plan (par exemple, Opus reste actif jusqu'à l'apparition d'un modèle mieux noté). Les versions intermédiaires comme Sonnet ne provoquent pas de saut tant qu'Opus est en tête.
  • Fusion des modes d'inférence : Les suffixes comme -thinking, -reasoning, -high sont regroupés sous le modèle de base pour éviter les oscillations.
  • Marqueurs de nouvelles versions : Les versions sont représentées par des points étiquetés, généralement accompagnés de sauts de score.
  • Dégradation visible : Les tendances à la baisse au sein du cycle de vie d'un modèle entre les versions sont clairement tracées.
  • Compatible mobile + mode sombre inclus.
Ad

Source des données

Les données sont récupérées automatiquement chaque jour à partir de l'ensemble de données officiel LMSYS Arena sur Hugging Face. L'Arena utilise des milliers d'évaluations humaines anonymes via des points d'API — pas les interfaces utilisateur Web grand public.

Angle mort critique : Interface Web vs API

L'auteur reconnaît une limitation clé : LMSYS teste les modèles API bruts. Les interfaces grand public (chatgpt.com, gemini.com) ajoutent des invites système lourdes, des couches de sécurité et peuvent basculer silencieusement vers des modèles quantifiés en cas de charge. Ce projet recherche des classements ELO historiques ou des ensembles de données d'évaluation provenant d'interfaces Web réelles pour capturer la « dégradation » subie par les utilisateurs. Les contributions avec de tels ensembles de données sont les bienvenues (lien vers le dépôt en bas de page).

À qui cela s'adresse

Développeurs et chercheurs qui suivent la qualité des modèles de LLM au fil du temps, en particulier ceux qui déploient des agents d'IA dépendant d'un comportement constant des modèles.

📖 Lire la source complète : HN LLM Tools

Ad

👀 See Also

Maggy : Une plateforme d'ingénierie autonome sur Claude Code avec mémoire inter-sessions et apprentissage d'équipe pair-à-pair
Tools

Maggy : Une plateforme d'ingénierie autonome sur Claude Code avec mémoire inter-sessions et apprentissage d'équipe pair-à-pair

Maggy se situe au niveau 4 du spectre des outils de codage IA : orchestration multi-modèle, mémoire inter-sessions, intelligence des processus issue des CI/reviews et apprentissage pair-à-pair en équipe. Les benchmarks montrent une réduction de 83 % de l'utilisation de Claude tout en détectant 7 problèmes de sécurité manqués par le pipeline unique de Claude Code.

OpenClawRadar
Réduisez de 90 % les coûts des sessions de codage IA avec l'indexation de code basée sur des graphes
Tools

Réduisez de 90 % les coûts des sessions de codage IA avec l'indexation de code basée sur des graphes

Un développeur a construit une base de données graphe locale qui indexe un codebase à l'aide de résumés générés par LLM, réduisant les coûts des sessions Claude Code de 6 à 10 dollars à quelques centimes en évitant les relectures redondantes de fichiers.

OpenClawRadar
Claude Compétences : 12 Packs de Règles de Codage Strictes pour TypeScript, Rust, Swift, Go, JS, Postgres et Audits
Tools

Claude Compétences : 12 Packs de Règles de Codage Strictes pour TypeScript, Rust, Swift, Go, JS, Postgres et Audits

12 fichiers markdown avec des règles avisées et adaptées aux versions pour TS, Rust, Swift, Go, JS, Postgres, sécurité, performances, tests, revue de code, standards GitHub et commits git. MIT, gratuit, pas d'inscription.

OpenClawRadar
9 Compétences de Code Claude Gratuites pour le Flux de Travail de Recherche Médicale
Tools

9 Compétences de Code Claude Gratuites pour le Flux de Travail de Recherche Médicale

Un chercheur en radiologie a publié en open source 9 compétences Claude Code couvrant le flux de travail de la recherche médicale, de la recherche documentaire à la préparation du manuscrit. Les compétences incluent la recherche PubMed avec vérification anti-hallucination, la génération de code d'analyse statistique et la création de figures prêtes à publier.

OpenClawRadar