LLM性能低下を追跡するArena AIモデルELO履歴ダッシュボード

Erwin MayerのArena AI Model ELO History（ライブトラッカー）は、LMSYS Arenaリーダーボードの過去のELOレーティングをプロットし、フラッグシップAIモデルのパフォーマンス傾向を明らかにします。核となる洞察：発売時には素晴らしく感じられるモデルも、サイレントアップデート、量子化、またはセーフティラッパーの変更により、数週間後に劣化することがよくあります。

主な機能

研究所ごとに1本の曲線：すべてのバリアントを描くスパゲッティチャートではなく、主要なAI研究所ごとに、各時点で最高評価のフラッグシップモデルを表す1本の連続線を表示します。
フラッグシップ追跡ロジック：曲線は最上位モデルに固定されます（例：Opusは、新しい高スコアモデルが登場するまでアクティブのまま）。Opusがリードしている間、Sonnetなどの中級リリースではジャンプは発生しません。
推論モードの統合：-thinking、-reasoning、-highなどのサフィックスはベースモデルに統合され、切り替わりを防ぎます。
新リリースマーカー：リリースはラベル付きポイントとして表示され、通常はスコアのジャンプを伴います。
劣化の可視化：リリース間のモデルライフサイクル内での下降トレンドが明確にプロットされます。
モバイルフレンドリー＋ダークモードを搭載。

データソース

データはHugging Faceの公式LMSYS Arenaデータセットから毎日自動的に取得されます。ArenaはAPIエンドポイントを介した数千のブラインドクラウドソーシングによる人間評価を使用しています。コンシューマー向けWeb UIではありません。

重大な盲点：Web UI vs. API

著者は重要な制限を認めています。LMSYSは生のAPIモデルをテストします。コンシューマー向けインターフェース（chatgpt.com、gemini.com）は重いシステムプロンプト、セーフティラッパーを追加し、負荷がかかると量子化モデルにサイレントに切り替える可能性があります。このプロジェクトは、ユーザーが経験する「ナーフィング」を捉えるために、実際のWeb UIからの過去のELOまたは評価データセットを求めています。そのようなデータセットのPRは歓迎します（リポジトリリンクはフッターにあります）。