История рейтинга ELO модели Arena AI отслеживает снижение производительности LLM с течением времени

История ELO моделей AI Arena от Erwin Mayer (живой трекер) отображает исторические рейтинги ELO из таблицы лидеров LMSYS Arena, выявляя тенденции производительности флагманских AI-моделей. Основное открытие: модели, которые кажутся отличными при запуске, часто деградируют через несколько недель из-за незаметных обновлений, квантизации или изменений в защитных обёртках.
Ключевые особенности
- Одна кривая на лабораторию: Вместо спагетти-графика из множества вариантов, каждая крупная AI-лаборатория получает одну непрерывную линию, представляющую их самую высокорейтинговую флагманскую модель на текущий момент.
- Логика отслеживания флагманов: Кривая привязана к топовой модели (например, Opus остаётся активной, пока не появится новая модель с более высоким рейтингом). Промежуточные релизы, такие как Sonnet, не вызывают скачка, пока лидирует Opus.
- Слияние режимов инференса: Суффиксы вроде
-thinking,-reasoning,-highсворачиваются в базовую модель, чтобы избежать переключений. - Маркеры новых релизов: Релизы отображаются как подписанные точки, обычно сопровождаемые скачками рейтинга.
- Видимая деградация: Нисходящие тренды в жизненном цикле модели между релизами чётко отображаются.
- Мобильная версия и тёмная тема включены.
Источник данных
Данные автоматически загружаются ежедневно из официального датасета LMSYS Arena на Hugging Face. Arena использует тысячи слепых краудсорсинговых человеческих оценок через API-эндпоинты, а не потребительские веб-интерфейсы.
Критическое слепое пятно: веб-интерфейс против API
Автор признаёт ключевое ограничение: LMSYS тестирует сырые API-модели. Потребительские интерфейсы (chatgpt.com, gemini.com) добавляют тяжёлые системные промпты, защитные обёртки и могут незаметно переключаться на квантизированные модели под нагрузкой. Проект ищет исторические данные ELO или оценок из реальных веб-интерфейсов, чтобы зафиксировать «ослабление», которое испытывают пользователи. PR с такими данными приветствуются (ссылка на репозиторий в подвале).
Для кого это
Для разработчиков и исследователей, отслеживающих качество LLM-моделей с течением времени, особенно для тех, кто разворачивает AI-агентов, полагающихся на стабильное поведение модели.
📖 Читать полный источник: HN LLM Tools
👀 Смотрите также

Стирлинг-8B: Интерпретируемая языковая модель с атрибуцией на уровне токенов
Guide Labs выпустила Steerling-8B — языковую модель с 8 миллиардами параметров, обученную на 1,35 триллиона токенов, которая может отслеживать любой сгенерированный токен до исходного контекста, понятных человеку концепций и источников обучающих данных. Модель демонстрирует конкурентоспособную производительность по сравнению с моделями, обученными на 2–7× большем объёме данных.

Интеграция локальных агентов LLM с ComfyUI для пакетной генерации изображений на естественном языке
Разработчик делится опытом подключения своего локального агента OpenClaw к ComfyUI, что позволяет использовать естественный язык для команд в рабочих процессах пакетной генерации изображений. Интеграция использует пользовательский навык агента, который преобразует английские запросы в JSON рабочего процесса ComfyUI и обрабатывает API-коммуникацию.

Плагин Design Studio для Claude Code добавляет виртуальную дизайн-команду с 9 ролями и 16 командами.
Новый плагин Claude Code под названием Design Studio имитирует полноценную команду дизайнеров с 9 специализированными ролями, 16 слэш-командами и 5 агентами. Он автоматически определяет технологические стеки и включает более 8000 строк знаний о дизайне в справочных файлах.

Фреймворк SIDJUA добавляет уровень управления к автономным ИИ-агентам
SIDJUA — это фреймворк со встроенным управлением, правилами авторизации на основе ролей и полными журналами аудита, который работает поверх любой AI-модели с API. Демо-версия показывает трехуровневую иерархию, масштабируемую до 7+1 уровней, с регистрацией каждого решения и отслеживанием затрат в реальном времени.