Tableau de bord ELO : visualisez la dégradation des performances des LLM au fil du temps

L'historique des classements ELO de l'Arena AI de Erwin Mayer (suivi en direct) représente les classements ELO historiques du classement LMSYS Arena pour exposer les tendances de performances des modèles d'IA phares. La principale observation : les modèles qui semblent excellents au lancement se dégradent souvent des semaines plus tard en raison de mises à jour silencieuses, de la quantification ou de modifications des couches de sécurité.

Fonctionnalités clés

Une courbe par laboratoire : Au lieu d'un graphique spaghetti de toutes les variantes, chaque grand laboratoire d'IA obtient une ligne continue unique représentant son modèle phare le mieux noté à un moment donné.
Logique de suivi des modèles phares : La courbe reste sur le modèle de premier plan (par exemple, Opus reste actif jusqu'à l'apparition d'un modèle mieux noté). Les versions intermédiaires comme Sonnet ne provoquent pas de saut tant qu'Opus est en tête.
Fusion des modes d'inférence : Les suffixes comme -thinking, -reasoning, -high sont regroupés sous le modèle de base pour éviter les oscillations.
Marqueurs de nouvelles versions : Les versions sont représentées par des points étiquetés, généralement accompagnés de sauts de score.
Dégradation visible : Les tendances à la baisse au sein du cycle de vie d'un modèle entre les versions sont clairement tracées.
Compatible mobile + mode sombre inclus.

Source des données

Les données sont récupérées automatiquement chaque jour à partir de l'ensemble de données officiel LMSYS Arena sur Hugging Face. L'Arena utilise des milliers d'évaluations humaines anonymes via des points d'API — pas les interfaces utilisateur Web grand public.

Angle mort critique : Interface Web vs API

L'auteur reconnaît une limitation clé : LMSYS teste les modèles API bruts. Les interfaces grand public (chatgpt.com, gemini.com) ajoutent des invites système lourdes, des couches de sécurité et peuvent basculer silencieusement vers des modèles quantifiés en cas de charge. Ce projet recherche des classements ELO historiques ou des ensembles de données d'évaluation provenant d'interfaces Web réelles pour capturer la « dégradation » subie par les utilisateurs. Les contributions avec de tels ensembles de données sont les bienvenues (lien vers le dépôt en bas de page).

À qui cela s'adresse

Développeurs et chercheurs qui suivent la qualité des modèles de LLM au fil du temps, en particulier ceux qui déploient des agents d'IA dépendant d'un comportement constant des modèles.

📖 Lire la source complète : HN LLM Tools

Historique ELO du modèle Arena AI suit la dégradation des performances des LLM au fil du temps

Fonctionnalités clés

Source des données

Angle mort critique : Interface Web vs API

À qui cela s'adresse

👀 See Also

ClawMetry ajoute une surveillance à distance avec chiffrement de bout en bout pour les agents OpenClaw

mycrab.space présente SKILL.md et Prompt Autocomposer pour un déploiement d'applications standardisé.

Caddie : L'alternative OpenClaw basée sur Slack sera lancée la semaine prochaine

Jan-Code-4B : Un modèle léger optimisé pour le code, destiné au développement local