Arena AIモデルELO履歴が経時的なLLM性能低下を追跡

Erwin MayerのArena AI Model ELO History(ライブトラッカー)は、LMSYS Arenaリーダーボードの過去のELOレーティングをプロットし、フラッグシップAIモデルのパフォーマンス傾向を明らかにします。核となる洞察:発売時には素晴らしく感じられるモデルも、サイレントアップデート、量子化、またはセーフティラッパーの変更により、数週間後に劣化することがよくあります。
主な機能
- 研究所ごとに1本の曲線:すべてのバリアントを描くスパゲッティチャートではなく、主要なAI研究所ごとに、各時点で最高評価のフラッグシップモデルを表す1本の連続線を表示します。
- フラッグシップ追跡ロジック:曲線は最上位モデルに固定されます(例:Opusは、新しい高スコアモデルが登場するまでアクティブのまま)。Opusがリードしている間、Sonnetなどの中級リリースではジャンプは発生しません。
- 推論モードの統合:
-thinking、-reasoning、-highなどのサフィックスはベースモデルに統合され、切り替わりを防ぎます。 - 新リリースマーカー:リリースはラベル付きポイントとして表示され、通常はスコアのジャンプを伴います。
- 劣化の可視化:リリース間のモデルライフサイクル内での下降トレンドが明確にプロットされます。
- モバイルフレンドリー+ダークモードを搭載。
データソース
データはHugging Faceの公式LMSYS Arenaデータセットから毎日自動的に取得されます。ArenaはAPIエンドポイントを介した数千のブラインドクラウドソーシングによる人間評価を使用しています。コンシューマー向けWeb UIではありません。
重大な盲点:Web UI vs. API
著者は重要な制限を認めています。LMSYSは生のAPIモデルをテストします。コンシューマー向けインターフェース(chatgpt.com、gemini.com)は重いシステムプロンプト、セーフティラッパーを追加し、負荷がかかると量子化モデルにサイレントに切り替える可能性があります。このプロジェクトは、ユーザーが経験する「ナーフィング」を捉えるために、実際のWeb UIからの過去のELOまたは評価データセットを求めています。そのようなデータセットのPRは歓迎します(リポジトリリンクはフッターにあります)。
対象ユーザー
特に一貫したモデル動作に依存するAIエージェントを展開する、LLMモデルの品質を長期追跡する開発者や研究者。
📖 出典全文を読む: HN LLM Tools
👀 See Also

OpenClawメモリ修正ツールは、パフォーマンスの低下に対処します。
新しいスラッシュコマンド「/claw_memory_fix」は、エージェントが認証情報や権限を忘れた際にOpenClawのメモリファイルをクリーンアップするのに役立ちます。このツールは、Alibaba、GitHubエンジニアリング、MemGPT、および2026年1月のメモリ管理研究の技術を実装しています。

オープンモンタージュ:AIコーディングアシスタント向けオープンソース・エージェント型映像制作システム
OpenMontageは、Claude CodeのようなAIコーディングアシスタントを本格的な制作スタジオに変えるオープンソースの映像制作システムです。リサーチ、シーン構成、脚本作成、音声ナレーション、音楽選択、字幕生成、自動化パイプラインによる検証までを一貫して処理します。

Freddy MCPサーバーがヘッドレスサインインでウェアラブルをAIエージェントに接続
Freddyは、ウェアラブル(Polar、Oura、Withings、Suunto、Intervals.icu、Hevy、およびベータ版のWHOOP、Strava、Dexcom)をClaude Code、ChatGPT、Notion AIなどのAIクライアントにOAuth経由で接続する個人用MCPサーバーです。新しいヘッドレスサインインにより、自律エージェントのスケジュールワークフローが可能になりました。

CostHawk、Claude Code、Codex、Cursorのトークン消費量公開リーダーボードを発表
CostHawkのリーダーボードは、Claude Code、OpenAI Codex、Cursorの一般ユーザーを総トークン消費量でランク付けし、カウント、モデル、同期タイムスタンプを追跡しますが、プロンプトやコードは保存しません。